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内 容 简 介 


本 书 从 大 数据 的 基本 概念 开始 ,由 浅 入 深 地 领会 大 数据 的 精 散 。 本 书 除了 讲述 必要 的 大 数据 理论 
之 外 ,还 通过 大 数据 实践 来 讲述 大 数据 技术 的 应 用 ,包括 如 何 运 用 阿里 云 大 数据 计算 平台 分 析 和 解决 
实际 问题 ,很 好 地 体现 了 大 数据 理论 与 实践 的 有 机 结合 。 

本 书 分 为 三 大 部 分 ,分 别 是 大 数据 概述 及 基础 .大 数据 处 理 和 大 数据 分 析 与 应 用 。 其 中 ,大 数据 概 
述 及 基础 部 分 重点 介绍 数据 组 织 、 重 要 数据 结构 、 大 数据 协同 技术 以 及 大 数据 存储 技术 等 内 容 ; 大 数据 
处 理 部 分 重点 介绍 大 数据 处 理 框 架 ,包括 大 数据 批 处 理 和 流 处 理 框 架 等 内 容 ; 大 数据 分 析 与 应 用 部 分 
重点 介绍 数据 分 析 技术 和 机 器 学 习 的 相关 内 容 , 以 及 如 何 利用 阿里 云 的 数 加 平台 进行 基本 的 大 数据 开 
发 工作 。 

本 书 既 可 以 作为 高 等 院 校 计算 机 科学 、 软 件 工程 及 相关 专业 “大 数据 "课程 的 教材 ,也 可 以 供 系统 
分 析 师 、 系 统 架构 师 ,软件 开发 工程 师 和 项 目 经 理 , 以 及 其 他 准备 或 正在 学 习 大 数据 技术 的 读者 (包括 
参加 计算 机 等 级 考试 或 相关 专业 自学 考试 的 人 员 ) 阅 读 和 参考 。 
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PREFACE 


DT 时 代 的 数据 思维 与 智能 思维 


本 套 云 计算 大 数据 丛书 出 版 正 值 信息 科技 领域 进入 新 一 轮 巨 变 , 中 国 经 济 面临 转型 
机 遇 的 特殊 时 期 。 全 球 信息 科技 行业 伴随 着 云 计 算 、 大 数据 、 物 联网 、 人 工 智 能 的 发 展 即 
将 进入 一 个 泛 智能 的 时 代 , 云 计算 成 为 数字 经 济 的 基础 设施 ; 数据 驱动 、 泛 在 智能 成 为 各 
行 各 业 转 型 升级 的 基础 ,不 仅 传统 的 IT 从 业 人 员 面 临 能 力 升级 ,大 多 数 在 校 大 学 生 也 面 
临 新 一 轮 知识 体系 的 更 新 ,各 个 垂直 行业 面临 新 一 轮 的 人 才 升 级 。 新 一 代 人 才 教 育 与 培 
训 , 需 要 一 套 产 学 一 体 的 培训 课程 体系 ,这 是 阿里 云 愿 意 投身 云 计算 大 数据 网 络 安全 人 
才 培 养 体系 的 时 代 背 景 。 云 计算 、 大 数据 、 网 络 安 全 不 仅 关乎 网 络 强国 的 大 使 命 ,也 逐步 
成 为 各 行 各 业 专业 人 才 的 “元 学 科 ”, 会 逐步 成 为 高 等 与 职业 教育 的 通 识 课 程 ,一 些 发 达 
国家 已 经 在 中 小 学 立法 普及 编程 课 , 已 经 开始 指向 这 个 趋势 。“ 懂 云 计算 ,有 数据 思维 ， 
理解 智能 化 ”, 未 来 可 能 是 每 一 个 工程 技术 人 员 与 专业 人 士 的 必要 素质 。 

2016 年 开始 ,全 球 信息 科技 进入 一 个 新 的 加 速 爆 发 周期 ,可 能 发 生 的 大 概率 事件 是 : 
二 十 年 之 内 ,有 一 半 的 人 类 知识 工作 者 会 被 人 工 智 能 替代 ,有 服务 能 力 的 机 器 人 会 诞生 ， 
全 世界 的 产业 工人 会 少 于 机 器 人 :; 虚拟 现实 和 增强 现实 会 蔡 代 今天 的 智能 手机 , 变 成 一 
个 新 的 人口 ; 各 行 各 业 都 会 需要 基于 物 联网 的 智能 化 “中国 制造 ”会 成 为 广泛 意义 的 “中 
国 智 造 ”。 

新 一 轮 科技 带 来 了 生活 方式 的 变革 、 生 产 方式 的 变革 ,还 有 学 习 方式 的 变革 ,这 几 个 
趋势 的 背后 ,是 云 计算 作为 一 种 普 囊 科技 的 基础 设施 ,大 数据 成 为 新 能 源 ,智能 化 成 为 一 
种 新 常识 。 
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2016 年 ,全 世界 的 短视 频 总 量 增 长 了 6 倍 , 直 播 业 务 在 中 国 增长 了 10 倍 , 远 在 偏远 
小 镇 的 青年 可 以 通过 直播 做 电子 商务 ,转化 率 可 以 提升 十 倍 以 上 。 当 一 个 技术 的 使 用 成 
本 趋 近 于 零 的 时 候 , 会 带 来 广泛 的 社会 效应 。 十 年 以 前 的 直播 只 有 电视 台 能 做 ,需要 专 
门 的 摄像 机 等 设备 ,而 今天 的 直播 只 需要 一 个 手机 ,而 且 是 多 对 多 带 互动 的 。 无 论 是 短 
视频 ,还 是 直播 ,背后 都 有 云 计算 作为 普 惠 科技 的 支撑 作用 ,由 此 带 来 的 ,所 有 与 知识 传 
播 有 关 的 教育 ,包括 整个 内 容 行业 ,都 会 被 它 改变 , 随 着 大 数据 和 人 工 智 能 的 加 入 ,人 类 
学 习 的 方式 交互 性 会 更 强 ,“ 学 习 系统 "会 根据 不 同人 的 理解 程度 做 个 性 化 的 推荐 与 
辅导 。 

这 意味 着 知识 生产 与 知识 传播 方式 的 根本 性 转变 ,这 个 恰恰 是 云 计算 、 人 工 智能 等 
科技 与 各 行 各 业 产生 化 学 反应 的 交叉 点 ,数据 是 这 个 转变 的 新 能 源 。 

在 2016 年 10 月 ,阿里 云 和 法 院 系统 合作 ,发布 了 一 个 面向 法 律 服务 的 智能 应 用 “法 
小 淘 ”, 通 过 把 数 千 万 份 法 律 判例 文本 化 "法 小 淘 ” 智 能 应 用 可 以 为 普通 老百姓 以 及 初级 
律师 提供 “ 打 官司 ”的 咨询 服务 ,根据 用 户 输入 的 案件 信息 给 出 建议 ,包括 推荐 合适 的 律 
师 。 貌 似 与 科技 远离 的 法 律 服务 也 用 上 了 人 工 智 能 ,这 是 垂直 行业 泛 智能 化 的 一 个 小 
例子 。 

中 国 制 造 进 入 智能 时 代 

在 工业 界 , 阿 里 云 跟 中 石化 合作 ,协助 他 们 做 了 企业 的 电 商 平台 ; 与 徐工 合作 ,推动 
工厂 基于 工业 云 的 智能 化 ; 与 上 汽 合作 ,推出 具有 智能 服务 的 互联 网 汽车 ,都 收 到 积极 的 
市 场 反馈 。 中 国 制 造 ,面临 智能 化 的 产业 机 过, 借助 互联 网 人 口 和 产业 布局 两 大 优势 成 
为 未 来 的 第 一 个 智能 产品 制造 国 。 

在 接 下 来 的 几 年 ,互联 网 + 智能 制造 的 每 加 会 在 很 多 个 垂直 领域 出 现 ,数据 智能 与 制 
造 业 结合 ,产生 “ 跨 界 重 混 " 的 效果 ,其 至 制造 业 就 不 是 以 制造 为 主 ,而 是 以 服务 化 为 主 。 
这 个 巨大 的 重 构 背后 依赖 云 和 大 数据 。 也 因为 这 个 需求 ,我 们 可 预见 工业 企业 对 云 计 算 
大 数据 人 才 的 需求 会 越 来 越 强烈 。 

“创业 化 生存 "与 共享 经 济 的 兴起 

创业 化 ,会 成 为 一 种 常态 , 越 来 越 多 的 年 轻 人 开始 告别 公司 ,兴起 中 的 数字 经 济 体 都 
是 基于 云 平台 的 网 络 化 协作 组 织 ; 云 计算 成 为 共享 经 济 的 超级 容器 ,催生 新 一 代 创 业者 
和 ”和 斜 杠 青年 ”。 十 年 以 后 ,或 许 一 半 以 上 的 从 业者 都 是 “ 斜 杠 青年 ”今天 美国 就 有 数 千 
万 人 是 跨 工作 、 跨 公司 的 “ 斜 杠 青 年 ”。 

过 去 十 年 , 云 计 算 使 得 创业 公司 的 创业 门槛 降低 了 10 倍 ,没有 云 计 算 , Airbnb, 
NetFlix, {ERF Uber 等 公司 不 可 能 这 么 快 成 长 壮大 ,新 一 代 创业 者 的 一 个 核心 能 力 就 是 
要 懂 技 术 , 理 解数 据 和 算法 的 价值 ,缺少 技术 理解 力 的 创业 者 将 面临 更 大 的 同 质 化 压力 。 
一 句 话 ,无 论 是 草根 创业 ,还 是 做 一 个 “ 斜 杠 青 年 ”, 必 要 的 数据 思维 是 生存 本 能 。 


B Sq 

创业 化 和 共享 经 济 的 崛起 .有赖 于 云 计算 作为 基础 设施 ,大 数据 作为 新 能 源 的 全 新 
范式 ,新 一 代 创业 公司 需要 大 量 的 科技 人 才 。 

在 未 来 的 经 济 环境 里 , 普 惠 云 科 技 的 基础 设施 化 制造 的 智能 化 .软件 的 泛 化 以 及 数 
据 无 处 不 在 ,是 一 个 大 趋势 ,并 且 不 断 向 各 行 各 业 渗 透 。 本 套 从 书 就 是 希望 在 这 个 普 惠 
科技 与 各 行 各 业 深度 融合 的 时 代为 下 一 代 科 技 人 才 的 培养 提供 更 多 产业 界 的 经 验 与 
实践 。 

感谢 清华 大 学 出 版 社 出 版 本 套 云 计算 与 大 数据 方面 的 系列 教材 。 感 谢 各 位 高 校 老 
师 的 辛苦 努力 和 用 心 付出 ,使 得 本 系列 教材 能 够 付 样 出 版 。 
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互联 网 技术 不 断 发 展 ,各 种 技术 不 断 涌现 ,其 中 大 数据 技术 已 成 为 一 颗 闪耀 的 新 星 。 
我 们 已 经 处 于 数据 世界 ,互联 网 每 天 产生 大 量 的 数据 ,利用 好 这 些 数据 可 以 给 我 们 的 生 
活 带 来 巨大 的 变化 以 及 提供 极 大 的 便利 。 目 前 大 数据 技术 受到 越 来 越 多 的 机 构 的 重视 ， 
因为 大 数据 技术 可 以 给 其 创造 巨大 的 利润 ,其 中 的 典型 代表 是 个 性 化 推荐 以 及 大 数据 精 
准 营销 。 

本 书 在 讲述 大 数据 的 基本 概念 ,原理 与 方法 的 基础 上 ,详细 而 全 面 地 介绍 了 可 以 实 
际 用 于 大 数据 实践 的 各 种 技能 , 旨 在 使 学 生 通过 有 限 课时 的 学 习 后 ,不 仅 能 对 大 数据 技 
术 的 基本 原理 有 所 认识 ,而 且 能 够 具备 基本 的 大 数据 技术 开发 能 力 以 及 运用 大 数据 技术 
解决 基本 的 数据 分 析 问 题 , 理 解 大 数据 框架 (尤其 是 阿里 云 大 数据 计算 平台 ) ,在 阿里 云 
大 数据 平台 上 进行 基本 的 大 数据 开发 工作 的 能 力 。 

本 书 分 为 三 大 部 分 ,分 别 是 大 数据 概述 及 基础 、 大 数据 处 理 和 大 数据 分 析 与 应 用 。 
其 中 ,大 数据 概述 及 基础 部 分 重点 介绍 数据 组 织 、 重 要 数据 结构 、 大 数据 协同 技术 以 及 大 
数据 存储 技术 等 内 容 ; 大 数据 处 理 部 分 重点 介绍 大 数据 处 理 框架 ,包括 大 数据 批 处 理 和 
流 处 理 框架 等 内 容 ; 大 数据 分 析 与 应 用 部 分 重点 介绍 数据 分 析 技 术 和 机 器 学 习 的 相关 内 
容 , 以 及 如 何 利用 阿里 云 的 数 加 平台 进行 基本 的 大 数据 开发 工作 。 

本 书 与 其 他 类 似 著作 的 不 同 之 处 在 于 ,除了 讲述 必要 的 大 数据 理论 之 外 ,还 通过 大 
数据 实践 来 讲述 大 数据 技术 的 应 用 ,包括 如 何 运 用 阿里 云 大 数据 计算 平台 解决 和 分 析 实 
际 的 问题 ,如 阿里 云 MaxCompute 和 StreamCompute 等 。 本 书 的 最 后 一 章 “ 大 数据 实 
BR: 基于 数 加 平台 的 推荐 系统 ”是 学 生 在 做 课程 设计 时 可 供 模仿 的 一 个 项 目 , 它 完整 地 体 
现 了 理论 与 实践 的 有 机 结合 。 

本 书 的 理论 知识 的 教学 安排 建议 如 下 。 
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章 节 内 ë 学 时 数 
第 1 章 大 数据 概念 和 发 展 背景 
第 2 章 大 数据 系统 架构 概述 1 一 2 
第 3 章 分 布 式 通信 与 协同 2 一 4 
第 4 章 大 数据 存储 4 一 6 
第 5 章 分 布 式 处 理 2 
第 6 章 Hadoop MapReduce 解析 2~4 
第 7 章 Spark 解析 2~4 
第 8 章 流 计算 2 
第 9 章 图 计算 2 
第 10 Re 阿里 云 大 数据 计算 服务 平台 2 
第 11 章 集群 资源 管理 与 调度 4 一 6 
第 12 章 数据 分 析 2—4 
第 13 章 数据 挖掘 与 机 器 学 习 技 术 2—4 
第 14 章 大 数据 实践 : 基于 数 加 平台 的 推荐 系统 4~5 


建议 理论 教学 时 数 : 32 一 48 学 时 。 

建议 实验 (实践 ) 教 学 时 数 : 16 一 32 学 时 。 

教师 可 以 按照 自己 对 大 数据 的 理解 适当 地 删除 一 些 章节 ,也 可 以 根据 教学 目标 , 灵 
活 地 调整 章节 的 顺序 , 增 减 各 章 的 学 时 数 。 

在 本 书 成 书 的 过 程 中 ,得 到 了 万 昭 神 、 李 旭 、 苏 俊 洋 以 及 阿里 巴巴 的 李 妹 芳 等 人 的 大 
力 支 持 , 在 此 表示 衷心 的 感谢 。 

由 于 大 数据 是 一 门 新 兴学 科 , 大 数据 的 教学 方法 本 身 还 在 探索 之 中 ,加 之 我 们 的 水 
平和 能 力 有 限 , 本 书 难 免 有 下 漏 之 处 。 奶 请 各 位 同仁 和 广大 读者 给 予 批评 指正 ,也 希望 
各 位 能 将 实践 过 程 中 的 经 验 和 心得 与 我 们 交流 (yunxianglu@hotmail. com) 。 


作 者 
2017 年 1 月 
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1.1 什么 是 大 数据 


大 数据 是 一 个 不 断 发 展 的 概念 ,可 以 指 任 何 体 量 或 复杂 性 超出 常规 数据 处 理 方法 的 
处 理 能 力 的 数据 。 数 据 本 身 可 以 是 结构 化 、 半 结构 化 甚至 是 非 结构 化 的 , 随 着 物 联网 技 
术 与 可 穿戴 设备 的 飞速 发 展 ,数据 规模 变 得 越 来 越 大 ,内 容 越 来 越 复 杂 , 更 新 速度 越 来 越 
快 ,大 数据 研究 和 应 用 已 成 为 产业 升级 与 新 产业 崛起 的 重要 推动 力量 。 

从 狭义 上 讲 , 大 数据 主要 是 指 处 理 海 量 数 据 的 关键 技术 及 其 在 各 个 领域 中 的 应 用 ， 
是 指 从 各 种 组 织 形式 和 类 型 的 数据 中 发 气 有 价值 的 信息 的 能 力 。 一 方面 ,狭义 的 大 数据 
反映 的 是 数据 规模 之 大 ,以 至 于 无 法 在 一 定时 间 内 用 常规 数据 处 理 软件 和 方法 对 其 内 容 
进行 有 效 的 抓 取 、 管 理 和 处 理 ; 另 一 方面 ,狭义 的 大 数据 主要 是 指 海量 数据 的 获取 、 存 储 、 
管理 ,计算 分 析 、 挖 掘 与 应 用 的 全 新 技术 体系 。 

从 广义 上 讲 , 大 数据 包括 大 数据 技术 .大 数据 工程 ,大 数据 科学 和 大 数据 应 用 等 与 大 
数据 相关 的 领域 。 大 数据 工程 是 指 大 数据 的 规划 、 建 设 . 和 运营、 管理 的 系统 工程 ; 大 数据 
科学 主要 关注 大 数据 网 络 发 展 和 运营 过 程 中 发 现 和 验证 大 数据 的 规律 及 其 与 自然 和 社 
会 活动 之 间 的 关系 。 


1.2 大 数据 的 特点 


学 术 界 已 经 总 结 了 大 数据 的 许多 特点 ,包括 体 量 巨 大 、 速 度 极 快 . 模 态 多 样 、 潜 在 价 
值 大 等 。 
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IBM 公司 使 用 3V 来 描述 大 数据 的 特点 。 

CD Volume( 体 量 )。 通 过 各 种 设备 产生 的 海量 数据 体 量 巨大 ,远大 于 目前 互联 网 上 
的 信息 流量 。 

(2) Variety( 多 样 )。 大 数据 类 型 繁多 ,在 编码 方式 、 数 据 格式 、 应 用 特征 等 多 个 方面 
存在 差异 , 既 包 含 传统 的 结构 化 数据 ,也 包含 类 似 于 XML、JSON 等 半 结 构 化 形式 和 更 多 
的 非 结 构 化 数据 ; 既 包含 传统 的 文本 数据 ,也 包含 更 多 的 图 片 .音频 和 视频 数据 。 

(3) Velocity( 速 率 ) 。 数 据 以 非常 高 的 速率 到 达 系 统 内 部 ,这 就 要 求 处 理 数据 段 的 速 
度 必 须 非常 快 。 

后 来 ,IBM 公司 又 在 3V 的 基础 上 增加 了 Value( 价 值 ) 维 度 来 表述 大 数据 的 特点 , 即 
大 数据 的 数据 价值 密度 低 , 因 此 需要 从 海量 原始 数据 中 进行 分 析 和 挖掘 ,从 形式 各 异 的 
数据 源 中 抽取 富有 价值 的 信息 。 

IDC 公司 则 更 侧重 于 从 技术 角度 的 考量 : 大 数据 处 理 技 术 代 表 了 新 一 代 的 技术 架 
构 , 这 种 架构 能 够 高 速 获取 和 处 理 数据 ,并 对 其 进行 分 析 和 深度 挖掘 ,总结 出 具有 高 价值 
的 数据 。 

大 数据 的 “大 ”不 仅仅 是 指数 据 量 的 大 小 ,也 包含 大 数据 源 的 其 他 特征 ,如 不 断 增加 
的 速度 和 多 样 性 。 这 意味 着 大 数据 正 以 更 加 复杂 的 格式 从 不 同 的 数据 源 高 速 向 我 们 
MK. 

大 数据 有 一 些 区 别 于 传统 数据 源 的 重要 特征 ,不 是 所 有 的 大 数据 源 都 具备 这 些 特 
征 , 但 是 大 多 数 大 数据 源 都 会 具备 其 中 的 一 些 特征 。 

大 数据 通常 是 由 机 器 自动 生成 的 ,并 不 涉及 人 工 参与 ,如 引擎 中 的 传感器 会 自动 生 
成 关于 周围 环境 的 数据 。 

大 数据 源 通常 设计 得 并 不 友好 ,甚至 根本 没有 被 设计 过 ,如 社交 网 站 上 的 文本 信息 
流 , 我 们 不 可 能 要 求 用 户 使 用 标准 的 语法 .语序 等 。 

因此 大 数据 很 难 从 直观 上 看 到 蕴藏 的 价值 大 小 ,所 以 创新 的 分 析 方 法 对 于 挖掘 大 数 
据 中 的 价值 尤为 重要 ,更 是 迫在眉睫 。 


1.3 大 数据 的 发 展 


大 数据 技术 是 一 种 新 一 代 技 术 和 构架 . 它 成 本 较 低 ,以 快速 的 采集 、 处 理 和 分 析 技 术 
从 各 种 超大 规模 的 数据 中 提取 价值 。 大 数据 技术 不 断 涌现 和 发 展 ,让 我 们 处 理 海量 数据 
更 加 容易 、 便 宜 和 迅速 ,成 为 利用 数据 的 好 助手 ,其 至 可 以 改变 许多 行业 的 商业 模式 。 大 
数据 技术 的 发 展 可 以 分 为 六 大 方向 。 
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CD 大 数据 采集 与 预 处 理 方向 。 这 个 方向 最 常见 的 问题 是 数据 的 多 源 和 多 样 性 , 导 
致 数据 的 质量 存在 差异 ,严重 影响 到 数据 的 可 用 性 。 针 对 这 些 问 题 ,目前 很 多 公司 已 经 
推出 了 多 种 数据 清洗 和 质量 控制 工具 (如 IBM 公司 的 Data Stage) 。 

(2) 大 数据 存储 与 管理 方向 。 这 个 方向 最 常见 的 挑战 是 存储 规模 大 ,存储 管理 复杂 ， 
需要 兼顾 结构 化 、 非 结构 化 和 半 结 构 化 的 数据 。 分 布 式 文件 系统 和 分 布 式 数 据 库 相关 技 
术 的 发 展 正在 有 效 地 解决 这 些 方面 的 问题 。 在 大 数据 存储 和 管理 方向 ,尤其 值得 我 们 关 
注 的 是 大 数据 索引 和 查询 技术 .实时 及 流 式 大 数据 存储 与 处 理 的 发 展 。 

CD 大 数据 计算 模式 方向 。 由 于 大 数据 处 理 多 样 性 的 需求 ,目前 出 现 了 多 种 典型 的 
计算 模式 ,包括 大 数据 查询 分 析 计 算 ( 如 Hive) 、 批 处 理 计 算 ( 如 Hadoop MapReduce) , fit 
式 计 算 ( 如 Storm) 、 和 迭代 计算 (如 HaLoop)、 图 计算 (如 PregeD 和 内 存 计算 (如 HANA), 
这 些 计算 模式 的 混合 计算 方法 将 成 为 满足 多 样 性 大 数据 处 理 和 应 用 需求 的 有 效 手段 。 

(4) 大 数据 分 析 与 挖掘 方向 。 在 数据 量 迅速 增 加 的 同时 ,还 要 进行 深度 的 数据 分 析 
和 挖掘 ,并 且 对 自动 化 分 析 要 求 越 来 越 高 。 越 来 越 多 的 大 数据 分 析 工 具 和 产品 应 运 而 
生 , 如 用 于 大 数据 挖掘 的 RHadoop 版 ,基于 MapReduce 开发 的 数据 挖掘 算法 等 。 

(5) 大 数据 可 视 化 分 析 方 向 。 通 过 可 视 化 方式 来 帮助 人 们 探索 和 解释 复杂 的 数据 ， 
有 利于 决策 者 挖掘 数据 的 商业 价值 ,进而 有 助 于 大 数据 的 发 展 。 很 多 公司 也 在 开展 相应 
的 研究 ,试图 把 可 视 化 引入 其 不 同 的 数据 分 析 和 展示 的 产品 中 ,各 种 可 能 相关 的 商品 将 
会 不 断 出 现 。 可 视 化 工具 Tableau 的 成 功 上 市 反映 了 大 数据 可 视 化 的 需求 。 

(6) 大 数据 安全 方向 。 当 我 们 在 用 大 数据 分 析 和 数据 挖掘 获取 商业 价值 的 时 候 , 黑 
客 很 可 能 在 向 我 们 攻击 ,收集 有 用 的 信息 。 因 此 ,大 数据 的 安全 一 直 是 企业 和 学 术 界 非 
常 关注 的 研究 方向 。 文 件 访问 控制 权限 ACL, 基础 设备 加 密 、 匿 名 化 保护 技术 和 加 密 保 
护 等 技术 正在 最 大 程度 地 保护 数据 安全 。 


1.4 大 数据 的 应 用 


大 数据 在 各 行 各 业 的 应 用 越 来 越 频 繁 与 深入 , 接 下 来 将 以 几 个 具体 的 例子 讲述 大 数 
据 在 行业 中 的 应 用 。 

(1) 梅 西 百货 的 实时 定价 机 制 。 根 据 需 求 和 库存 的 情况 ,该 公司 基于 SAS 的 系统 对 
多 达 7300 万 种 货品 进行 实时 调价 。 

(2) Tipp24 AG 针对 欧洲 博彩 业 构 建 的 下 注 和 预测 平台 。 该 公司 用 KXEN 软件 来 
分 析 数 十 亿 计 的 交易 以 及 客户 的 特性 ,然后 通过 预测 模型 对 特定 用 户 进行 动态 的 营销 活 
动 。 这 项 举措 减少 了 90% 的 预测 模型 构建 时 间 。 


@ 大 数据 基础 及 应 用 


(3) 沃尔玛 的 搜索 。 这 家 零售 业 寡头 为 其 网 站 Walmart. com 自行 设计 了 最 新 的 搜 
索引 擎 Polaris ,利用 语义 数据 进行 文本 分 析 、 机 器 学 习 和 同义词 挖掘 等 。 根 据 沃 尔 玛 的 
说 法 ,语义 搜索 技术 的 运用 使 得 在 线 购物 的 完成 率 提升 了 10% 到 15%. 

(4) 快餐 业 的 视频 分 析 。 其 主要 通过 视频 分 析 等 候 队 列 的 长 度 ,然后 自动 变化 电子 
菜单 显示 的 内 容 。 如 果 队 列 较 长 , 则 显示 可 以 快速 供给 的 食物 ; 如 果 队 列 较 短 , 则 显示 利 
润 较 高 但 准备 时 间 相 对 长 的 食品 。 

(5) PredPol 和 预测 犯罪 。PredPol 公司 通过 与 洛杉矶 和 圣 克 和 鲁 斯 的 警方 以 及 一 群 
研究 人 员 合 作 , 基 于 地 震 预 测算 法 的 变 体 和 犯罪 数据 来 预测 犯罪 发 生 的 几率 ,可 以 精确 
到 500 平 方 英 尺 的 范围 内 。 在 洛杉矶 运用 该 算法 的 地 区 ,盗窃 罪 和 暴力 犯罪 分 别 下 降 了 
33 fl 2196. 

(6) Tesco PLC( 特 易 购 ) 和 运营 效率 。 这 家 连锁 超市 在 其 数据 仓库 中 收集 了 700 万 
部 冰箱 的 数据 。 通 过 对 这 些 数据 的 分 析 进 行 更 全 面 的 监控 ,并 进行 主动 的 维修 以 降低 整 
体能 耗 。 

(7) American Express( 美 国运 通 ,AmEx) 和 商业 智能 。 以 往 ,AmEx 只 能 实现 事后 
诸葛 式 的 报告 和 兆 后 的 预测 。 专 家 Laney 认为 传统 的 BI 已 经 无 法 满足 业务 发 展 的 需 
要 。” 于 是 ,AmEx 开始 构建 真正 能 够 预测 忠诚 度 的 模型 ,基于 历史 交易 数据 ,用 115 个 变 
量 进行 分 析 预 测 。 该 公司 表示 ,通过 预测 ,对 于 澳大利亚 将 于 此 后 的 4 个 月 中 流失 的 客 
户 已 经 能 够 识别 出 2426. 


1.5 习题 


.从 广义 与 狭义 两 方面 描述 你 理解 的 大 数据 。 
. 简要 陈述 大 数据 的 AV 特点 。 

. 简要 描述 大 数据 发 展 的 六 大 方向 。 

. 结合 现实 陈述 两 个 大 数据 的 应 用 场景 。 
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这 里 讲 的 系统 架构 设计 指 的 是 企业 大 数据 系统 设计 。 深 处 时 代 变 革 中 的 企业 又 一 
次 面临 大 数据 这 一 信息 技术 革命 带 来 的 冲击 ,企业 要 么 积极 拥抱 变化 ,提前 做 出 变革 ; 要 
么 静观 其 变 , 择 机 而 动 。 不 管 选择 哪 种 方式 ,都 是 继 互 联网 之 后 对 企业 的 又 一 次 智慧 的 
考验 。 

企业 信息 化 涉及 企业 的 各 个 方面 ,是 一 项 复杂 的 系统 工程 ,一 般 要 经 历 从 初始 到 不 
断 成 熟 的 过 程 。 对 于 数据 管理 阶段 和 成 熟 阶段 ,美国 管理 信息 系统 专家 诺 兰 发 表 了 著名 
的 企业 信息 系统 进化 的 阶段 模型 , 即 诺 兰 模型 。 诺 兰 认为 ,在 数据 管理 阶段 ,企业 高 层 已 
经 意识 到 了 企业 信息 战略 的 重要 性 ,并 开始 着 手 企 业 信息 资源 的 统一 规划 ; 在 数据 成 熟 
阶段 ,企业 和 数据 是 同步 发 展 的 ,数据 是 企业 面貌 的 镜像 ,企业 可 以 依据 数据 做 出 发 展 
决策 。 





2.1 总 体 架 构 概 述 


2.1.1 总 体 架 构 设 计 原则 


企业 级 大 数据 应 用 框架 需要 满足 业务 的 需求 : 一 是 要 求 能 够 满足 基于 数据 容量 大 、 
数据 类 型 多 数据 流通 快 的 大 数据 基本 处 理 需 求 ,能 够 支持 大 数据 的 采集 、 存 储 、 处 理 和 
分 析 ; 二 是 要 能 够 满足 企业 级 应 用 在 可 用 性 、 可 靠 性 、 可 扩展 性 、 容 错 性 、 安 全 性 和 保护 隐 
私 等 方面 的 基本 准则 ; 三 是 要 能 够 满足 用 原始 技术 和 格式 来 实现 的 数据 分 析 的 基本 
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要 求 。 
1. 满足 大 数据 的 3V BR 


D 大 数据 容量 的 加 载 . 处理 和 分 析 

要 求 大 数据 应 用 平台 经 过 扩展 可 以 支持 GB、TB、PB、EB 甚至 ZB 规模 的 数据 集 。 

2) 各 种 类 型 数据 的 加 载 . 处 理 和 分 析 

支持 各 种 各 样 的 数据 类 型 ,支持 处 理 交易 数据 、 各 种 非 结 构 化 数据 、 机 器 数据 以 及 其 
他 新 数据 结构 ; 支持 极端 的 混合 工作 负载 ,包括 数 以 千 计 的 地 理 上 分 布 的 在 线 用 户 和 程 
序 ,这 些 用 户 和 程序 执行 各 种 各 样 的 请 求 , 范 围 从 临时 性 的 请 求 到 战略 分 析 的 请 求 ,同时 
以 批量 或 流 的 方式 加 载 数 据 。 

3) 大 数据 的 处 理 速 度 

在 很 高 速度 (GB/s) 的 加 载 过 程 中 集成 来 自 多 个 来 源 的 数据 ; 以 至 少 每 秒 千 兆 字 节 
的 速度 高 速 加 载 数据 ,随时 进行 分 析 ; 以 满 负荷 速度 就 地 更 新 数据 ; 不 需要 预先 将 维 表 
与 事实 表 群 集 即 可 将 十 亿 行 的 维 表 加 入 万 亿 行 的 事实 表 ; 在 传人 的 加 载 数据 上 实时 执行 
某 些 * 流 ”分 析 查 询 。 


2. 满足 企业 级 应 用 的 要 求 


1) 高 可 扩展 性 

要 求 平台 符合 企业 未 来 业务 发 展 要 求 以 及 对 新 业务 的 响应 ,能 够 支持 大 规模 数据 
计算 的 节点 可 扩展 ,能 适应 将 来 数据 结构 的 变化 ,数据 容量 增长 .用 户 的 增加 、 查 询 要 
求 和 服务 内 容 的 变化 ,要 求 大 数据 架构 具备 支持 调度 和 执行 数 百 上 千 节 点 的 负载 工 
作 流 。 

2) 高 可 用 性 

要 求 平台 能 够 具备 实时 计算 环境 所 具备 的 高 可 用 性 ,在 单 点 故障 的 情况 下 能 够 保证 
应 用 的 可 用 性 ,具备 处 理 节点 故障 时 的 故障 转 义 和 流程 继续 的 能 力 。 

3) 安全 性 和 保护 隐私 

系统 在 数据 采集 ,存储 、 分 析 架 构 上 保证 数据 、 网 络 、 存 储 和 计算 的 安全 性 ,具备 保护 
个 人 和 企业 隐私 的 措施 。 

4) 开放 性 

要 求 平台 能 够 支持 计算 和 存储 数 以 千 计 的 ,地理 位 置 可 能 不 同 的 ,可 能 异 构 的 计算 
节点 ,能 够 识别 和 整合 不 同 技术 和 不 同 厂 商 开 发 的 工具 和 应 用 ,能 够 支持 移动 应 用 、 互 联 
网 应 用 、 社 交 网 络 `. 云 计算 、 物 联网 .虚拟 化 、 网 络 、 存 储 等 多 种 计算 机 设备 .计算 协议 和 计 
算 架 构 。 
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5) 易 用 性 

系统 功能 操作 是 否 易 用 ,能 否 满足 大 多 数 企 业 业 务 、 管 理 和 技术 人 员 的 操作 习惯 ; 平 
台 具 有 可 编程 性 ,能 够 支持 不 同 编程 工具 和 语言 的 集成 ,具备 集成 编译 环境 ; 能 否 在 处 理 
请 求 内 嵌入 任意 复杂 的 用 户 定义 函数 (CUDF) ,以 各 种 行业 标准 过 程 语言 执行 UDF, 组 合 
大 部 分 或 全 部 使 用 案例 的 大 量 可 复 用 UDF E ,在 几 分 钟 内 对 PB 级 别 大 小 的 数据 集 执 行 
UDF" 关 系 扫描 ”。 


3. 满足 对 原始 格式 数据 进行 分 析 的 要 求 


系统 具备 对 复杂 的 原始 格式 数据 进行 整合 分 析 的 能 力 , 如 对 文本 数据 、 数 学 数据 \ 统 
计数 据 , 金 融 数据 、 图 像 数 据 、 声 音 数据 、 地 理 空间 数据 \ 时 序数 据 、 机 器 数据 等 进行 分 析 
的 能 力 。 


2.1.2 总 体 架 构 参 考 模型 


基于 Apache 开源 技术 的 大 数据 平台 总 体 架构 参考 模型 如 图 2-1 所 示 , 大 数据 的 产 
生 、` 组 织 和 处 理 主要 是 通过 分 布 式 分 拣 处 理 系统 来 实现 的 ,主流 的 技术 是 Hadoop + 
MapReduce, 其 中 Hadoop 的 分 布 式 文件 处 理 系统 CHDFS) 作 为 大 数据 存储 的 框架 ,分 布 
式 计算 框架 MapReduce 作为 大 数据 处 理 的 框架 。 


Zope 
与 管理 Artes Uo ews 认证 sie. xu 
ze 授权 认证 
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图 2-1 大 数据 应 用 平台 的 总 体 架构 参考 模型 
1. 大 数据 基础 


这 一 部 分 提供 了 大 数据 框架 的 基础 ,包括 序列 化 ,分布 式 协同 等 基础 服务 ,构成 了 上 


D 大 数据 基础 及 应 用 


层 应 用 的 基础 。 

(1) Avro。 新 的 数据 序列 化 与 传输 工具 ,将 逐步 取代 Hadoop 原 有 的 IPC 机 制 。 

(2) ZooKeeper。 分 布 式 锁 设 施 , 它 是 一 个 分 布 式 应 用 程序 的 集中 配置 管理 器 ,用 户 
分 布 式 应 用 的 高 性 能 协同 服务 ,由 Facebook 贡献 ,也 可 以 独立 于 Hadoop 使 用 。 


2. 大 数据 存储 


HDFS 是 Hadoop 分 布 式 文件 系统 ,前 面 已 经 介绍 过 , HDFS 运行 于 大 规模 集群 之 
上 ,集群 使 用 廉价 的 普通 机 器 构建 ,整个 文件 系统 采用 的 是 元 数据 集中 管理 与 数据 块 分 
散 存 储 相 结 合 的 模式 ,并 通过 数据 的 元 余 复制 来 实现 高 度 容错 。 分 布 式 文件 处 理 系 统 架 
构 在 通用 的 服务 器 、 操 作 系统 或 虚拟 机 上 。 


3. 大 数据 处 理 


MapReduce 是 分 布 式 并 行 计算 框架 ,是 基于 Map( 可 理解 为 “任务 分 解 ") 和 Reduce 
(可 理解 为 “结果 综合 ”) 的 函数 。 基 于 MapReduce 写 出 的 应 用 程序 能 够 运行 在 由 上 千 个 
普通 机 器 组 成 的 大 型 集群 上 ,并 以 一 种 可 靠 容错 的 方式 并 行 处 理 TB 级 别 以 上 的 数据 集 。 
Mapper 和 Reducer 的 主 代码 可 以 用 很 多 语言 编写 , Hadoop 的 原生 语言 是 Java, 但 是 
Hadoop 公开 API 用 于 以 Ruby 和 Python 等 其 他 语言 编写 代码 ,还 提供 了 C++ 接口 。 在 
最 底层 进行 MapReduce 编程 显然 提供 了 最 大 的 潜力 ,但 这 种 编程 层次 非常 像 汇编 语言 
的 编程 。 


4. 大 数据 访问 和 分 析 


在 Hadoop 十 MapReduce 之 上 架构 的 是 基础 平台 服务 ,在 基础 平台 之 上 是 大 数据 访 
问 和 分 析 的 应 用 服务 。 大 数据 访问 和 分 析 的 框架 实现 对 传统 关系 型 数据 库 和 Hadoop 的 
访问 ,主流 技术 包括 Pig. Hive.Sqoop, Mahout 等 。 

(1) Pig, Pig 是 基于 Hadoop 的 并 行 计 算 高 级 编程 语言 , 它 提 供 一 种 类 似 于 SQL 的 
数据 分 析 高 级 文本 语言 , 称 为 Pig Latin, 该 语言 的 编译 器 会 把 类 SQL 的 数据 分 析 请 求 转 
换 为 一 系列 经 过 优化 处 理 的 MapReduce 运算 。Pig 支持 的 常用 数据 分 析 主 要 有 分 组 、 过 
滤 、 合 并 等 ,Pig 为 创建 Apache MapReduce 应 用 程序 提供 了 一 款 相 对 简单 的 工具 , 它 有 
效 简化 了 编写 .理解 和 维护 程序 的 工作 ,还 优化 了 任务 自动 执行 的 功能 ,并 支持 使 用 自 定 
义 功 能 进行 接口 扩展 。 

(2) Hive。Hive 是 由 Facebook 贡献 的 数据 仓库 工具 ,是 MapReduce 实现 的 用 来 查 
询 分 析 结 构 化 数据 的 中 间 件 。Hive 的 类 SQL 查询 语言 一 一 Hive SQL 可 以 查询 和 分 析 
储存 在 Hadoop 中 的 大 规模 数据 。 
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(3) Sqoop。Sqoop 由 Cloudera 开发 ,是 一 种 用 于 在 Hadoop 与 传统 数据 库 间 进 行 数 
据 传 递 的 开源 工具 ,允许 将 数据 从 关系 源 导 人 HDFS 以 及 从 HDFS 导出 到 关系 型 数据 
库 。MapReduce 等 函数 都 可 以 使 用 由 Sqoop 导入 HDFS 中 的 数据 。 

(4) Mahout。Apache Mahout 项 目 提供 分 布 式 机 器 学 习 和 数据 挖掘 库 。 

(5) Hama。 基 于 BSP 的 超大 规模 科学 计算 框架 。 


2.2 运行 架构 概述 


运行 架构 设计 着 重 考虑 的 是 企业 大 数据 系统 运行 期 的 质量 属性 ,比如 性 能 、 可 伸缩 
性 和 持续 可 用 性 。 大 规模 用 户 并 发 和 海量 数据 处 理 是 企业 大 数据 系统 在 运行 架构 设计 
时 重点 要 解决 的 问题 。 


2.2.1 物理 架构 


企业 大 数据 系统 的 各 层次 系统 最 终 要 部 署 到 主机 节点 中 ,这 些 节点 通过 网 络 连接 成 
为 一 个 整体 ,为 企业 的 大 数据 应 用 提供 物理 支撑 。 如 前 文 所 述 ,企业 大 数据 系统 由 多 个 
逻辑 层 组 成 ,多 个 逻辑 层 可 以 映射 到 一 个 物理 节点 上 ,也 可 以 映射 到 多 个 物理 节点 上 。 

在 映射 时 需要 考虑 3 个 方面 的 问题 : 一 是 是 否 容易 识别 , 即 通过 物理 节点 的 IP 地 址 
就 能 知道 这 个 节点 的 作用 域 ,通过 多 个 物理 节点 的 IP 地 址 就 能 知道 这 些 节点 是 否 为 一 
个 集群 的 ; 二 是 是 否 足够 集约 ,对 于 负载 轻 的 系统 ,如 果 每 一 个 软件 系统 单独 部 署 在 一 个 
物理 节点 ,会 造成 物理 节点 的 浪费 ; 三 是 是 否 能 够 同 构 ,对 于 物理 节点 最 好 能 够 统一 配 
置 , 不 仅 便 于 统一 管理 ,而 且 还 可 以 实现 重用 ,只 需 一 次 配置 ,多 个 物理 节点 同 构 复制 ,就 
可 以 实现 动态 扩展 。 

Google 和 Facebook 公司 都 采用 大 量 的 廉价 商用 硬件 来 搭建 自己 的 分 布 式 系统 , 基 
于 廉价 商用 硬件 搭建 的 分 布 式 系统 在 运行 效率 、 可 靠 性 、 可 扩展 性 方面 都 被 证 明 能 够 经 
得 起 大 规模 ,高 并 发 ,海量 数据 的 检验 。 


2.2.2 集成 架构 


企业 大 数据 系统 由 多 个 系统 集成 而 成 ,每 个 系统 都 提供 了 多 种 协议 和 接口 ,以 便 企 
业 大 数据 系统 的 内 部 系统 间 集 成 和 外 部 系统 与 大 数据 系统 的 集成 。 
企业 大 数据 系统 的 集成 可 以 分 为 总 体 集 成 和 专项 集成 ,总 体 集成 是 指 各 组 成 系统 间 
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的 集成 ,通过 总 体 集 成 可 以 构成 高 效 、. 可 靠 、. 安 全 运行 的 企业 大 数据 系统 。 若 企业 大 数据 
系统 之 外 的 某 个 应 用 系统 或 大 数据 系统 之 内 的 某 个 应 用 系统 只 想 与 存储 系统 .调度 系统 
等 进行 集成 ,那么 可 通过 调用 这 些 系统 开放 的 接口 来 实现 ,这 种 集成 方式 就 是 专项 集成 。 

在 实现 总 体 集 成 时 ,应 用 功能 集成 的 方法 是 同意 以 代理 系统 为 核心 ,各 应 用 系统 的 
功能 以 WebService 方式 注册 在 统一 代理 系统 中 。 统 一 代理 系统 既 可 以 作为 外 部 系统 与 
应 用 系统 的 中 介 ,为 外 部 系统 提供 功能 服务 ,同时 也 可 以 为 内 部 系统 间 功 能 的 相互 调用 
提供 服务 。 

应 用 系统 将 WebService 的 服务 注册 到 统一 应 用 代理 服务 器 ,由 统一 代理 应 用 系统 
将 其 转化 成 统一 的 对 外 WebServer。 应 用 系统 门户 等 内 外 部 系统 通过 调用 统一 的 对 外 
WebService 来 向 统一 代理 系统 发 出 服务 请 求 。 














2.2.3 安全 架构 


由 于 企业 大 数据 系统 的 数据 资源 和 计算 资源 广泛 地 分 布 在 多 个 节点 上 ,所 以 用 户 的 
身份 .权限 等 安全 ,数据 资源 的 存储 、 传 输 、. 访 问 等 安全 ,以 及 计算 资源 的 访问 .监控 、 调 
整 恢 复 等 安全 ,都 是 企业 大 数据 系统 在 进行 安全 架构 设计 时 需要 考虑 的 问题 。 

一 般 来 讲 , 企 业 大 数据 的 安全 架构 由 针对 3 层 的 安全 设计 构成 ,这 3 层 分 别 是 用 户 
层 、 应 用 层 和 数据 层 。 针 对 每 一 层 的 关键 行为 加 入 安全 因素 的 设计 ,以 确保 系统 的 整体 
BRAD, 

用 户 层 的 安全 主要 是 指 用 户 身份 安全 和 用 户 权 限 安 全 ,主要 由 统一 代理 系统 来 负 
责 。 当 用 户 在 登录 时 和 登录 后 访问 应 用 资源 .数据 资源 时 ,统一 代理 系统 将 对 用 户 身 份 
进行 认证 ,对 用 户 权限 进行 检查 。 

用 户 权 限 也 可 以 直接 将 原 有 的 用 户 权 限 系 统 集成 到 大 数据 系统 中 ,实现 对 用 户 权限 
的 管理 ,但 需要 对 资源 目录 进行 改造 。 分 布 式 文件 的 权限 管理 粒度 到 文件 级 ,所 以 在 资 
源 目录 中 对 用 户 的 文件 授权 也 只 能 到 文件 级 。 分 布 式 数据 的 权限 管理 粒度 只 能 到 行 级 
和 列 级 ,而 不 像 传 统 数 据 库 可 以 到 字段 表 , 所 以 在 资源 目录 中 对 用 户 的 数据 授权 也 要 做 
出 相应 的 改变 。 

应 用 层 安 全 主要 在 于 能 和 否 保证 应 用 安全 可靠 地 运行 。 应 用 层 安 全 关注 的 行为 包括 
分 布 式 任务 提交 、 进 度 和 状态 监管 .运行 任务 的 调整 、 任 务 的 恢复 运行 .日 志 记 录 和 资源 
权限 检查 。 

Hadoop 和 HBase 都 提供 了 相应 的 机 制 ,以 确保 应 用 任务 的 安全 运行 。Hadoop £ 
统 通过 JobTracker 来 进行 MapReduce 任务 的 分 配 、 调 度 和 调整 ,HBase 系统 的 H Master 
主 节点 和 HRegionServer 为 了 解决 数据 库 中 “ 脏 读 ” 和 “ 脏 写 ” 的 问题 会 采用 ZooKeeper 
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的 锁 服 务 。 

数据 层 安 全 重点 放 在 数据 是 否 会 丢失 ,传送 过 程 是 否 安全 ,敏感 数据 是 否 有 加 密 、 数 
据 的 完整 性 是 否 被 破坏 4 个 方面 。 

对 于 HDFS 而 言 ,每 一 个 文件 的 数据 库 都 采用 了 多 副本 机 制 , 并 将 这 些 副本 都 保存 
在 不 同 的 节点 上 。 当 某 个 节点 的 副本 失效 时 ,HDFS 还 会 在 一 个 新 的 节点 上 复制 一 个 副 
本 ,以 确保 副本 数量 与 设 定 要 求 使 用 一 致 。 在 文件 的 完整 性 上 , HDFS 对 每 一 个 块 都 采 
用 CRC32 的 校 验方 式 来 确保 数据 的 完整 性 。 同 样 , 对 于 分 布 式 数据 库 HBase, 它 提供 了 
类 似 的 分 布 式 数据 库 安 全 机 制 来 确保 数据 不 丢失 。 

为 了 保障 在 网 络 上 的 传输 安全 ,利用 数据 加 密 技 术 可 在 一 定 程度 上 确保 数据 在 网 络 
传输 过 程 中 不 会 被 截取 或 窃听 。SSL(Secure Socket Layer) 是 为 网 络 通信 提 供 安全 及 数 
据 完 整 性 保障 的 一 种 安全 协议 , 它 已 被 广泛 地 应 用 于 Web 浏览 器 与 服务 器 之 间 的 身份 
认证 和 加 密 传输 方面 。HDFS 提供 有 相应 的 HTTPS 方式 的 文件 读 / 写 接口 ,确保 数据 
传输 过 程 的 安全 。 


2.3 ”阿里 云 飞天 系统 体系 架构 


飞天 (Apsara) 是 由 阿里 云 自 主 研发 .服务 全 球 的 超大 规模 通用 计算 操作 系统 。 它 可 
以 将 遍布 全 球 的 百 万 级 服务 器 连 成 一 台 超 级 计算 机 ,以 在 线 公共 服务 的 方式 为 社会 提供 
计算 能 力 。 

从 PC 互联 网 到 移动 互联 网 再 到 万 物 互联 网 ,互联 网 成 为 世界 新 的 基础 设施 。 飞 天 
希望 解决 人 类 计算 的 规模 ,效率 和 安全 问题 。 飞 天 的 革命 性 在 于 将 云 计算 的 3 个 方向 整 
合 起 来 : 提供 足够 强大 的 计算 能 力 ,提供 通用 的 计算 能 力 .提供 普 惠 的 计算 能 力 。 

2009 年 ,阿里 云 把 自己 开发 的 通用 计算 操作 系统 命名 为 “飞天 ”, 是 希望 通过 计算 让 
人 类 的 想象 力 与 创造 力 得 到 最 大 的 释放 。 

7 年 过 去 ,飞天 已 经 为 全 球 200 多 个 国家 和 地 区 的 创新 创业 企业 、 政 府 机 构 等 提供 
服务 。 


2.3.1 阿里 云 飞 天 整体 架构 


飞天 平台 的 体系 架构 如 图 2-2 Bros ,整个 飞天 平台 包括 飞天 内 核 和 飞天 开发 服务 两 
大 部 分 。 
飞天 平台 内 核 为 上 层 飞 天 开发 服务 提供 存储 、 计 算 和 调度 等 方面 的 底层 系统 支持 ， 
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图 2-2 飞天 开放 平台 架构 


对 应 图 2-2 中 的 盘古 分 布 式 存储 系统 、 伏 义 分 布 式 应 用 调度 系统 、 夸 父 远 程 过 程 调用 系 
统 、 安 全 管理 系统 、 女 娲 分 布 式 协 同系 统 、. 伏 义 资 源 管理 系统 等 模块 。 飞 天 开发 服务 为 用 
户 应 用 程序 提供 了 存储 和 计算 两 方面 的 接口 和 服务 ,包括 弹性 计算 ECS 海量 存储 和 数 
据 库 系统 (OSS、Table Store, RDS), 数据 计算 系统 (Analytic DB, StreamCompute, 
MaxCompute) 等 。 

CD 飞天 管理 着 互联 网 规模 的 基础 设施 。 其 最 底层 是 遍布 全 球 的 几 十 个 数据 中 心 和 
数 百 个 PoP 节点 。 飞 天 所 管理 的 这 些 物 理 基础 设施 还 在 不 断 扩张 。 

(2) 飞天 内 核 跑 在 每 个 数据 中 心里 面 , 它 负 责 统一 管理 数据 中 心 内 的 通用 服务 器 集 
群 ,调度 集群 的 计算 、 存 储 资源 ,支撑 分 布 式 应 用 的 部 署 和 执行 ,并 自动 进行 故障 恢复 和 
数据 元 余 。 

(3) 安全 管理 根植 在 飞天 内 核 最 底层 。 飞 天 内 核 提 供 的 授权 机 制 能 够 有 效 实现 “最 
小 权限 原则 (principle of least privilege)”, 同 时 还 建立 了 自主 可 控 的 全 栈 安全 体系 。 

(4) 监控 报警 诊断 是 飞天 内 核 最 基本 的 能 力 之 一 。 飞 天 内 核对 上 层 应 用 提供 了 非常 
详细 的 、 无 间断 的 监控 数据 和 系统 事件 采集 .能够 回溯 到 发 生 问题 那 一 刻 的 现场 ,帮助 工 
程 师 找 到 问题 的 根源 。 

(5) 在 基础 公共 模块 之 上 有 两 个 最 核心 的 服务 ,一 个 叫 盘 古 ,一 个 叫 伏 义 。 盘 古 是 存 
储 管理 服务 , 伏 义 是 资源 调度 服务 ,飞天 内 核 之 上 应 用 的 存储 和 资源 的 分 配 都 是 由 盘古 
和 伏 义 管理 。 

(6) 在 基础 公共 模块 旁边 还 有 一 个 服务 . 叫 天 基 ,意思 是 “飞天 的 基础 ”>。 天 基 是 飞天 
的 自动 化 运 维 服务 ,负责 飞天 各 个 子 系统 的 部 署 .天 级 .扩容 以 及 故障 迁移 。 
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2.3.2 阿里 云 飞 天 平台 内 核 


阿里 云 飞 天 平台 内 核 可 以 分 成 以 下 几 个 部 分 。 

CD 分 布 式 系统 底层 服务 。 其 提供 分 布 式 环境 下 所 需要 的 分 布 式 协同 服务 .远程 过 
程 调用 服务 .安全 管理 .分 布 式 资源 调度 等 功能 ,这 些 服 务 为 上 层 的 分 布 式 文件 系统 和 分 
布 式 应 用 调度 提供 功能 支持 。 

(2) 盘古 分 布 式 文件 系统 。 盘 古 (Pangu) 是 一 个 分 布 式 文件 系统 ,盘古 系统 的 设计 
目标 是 将 大 量 通 用 机 器 的 存储 资源 聚合 在 一 起 ,为 用 户 提供 大 规模 、 高 可 靠 、 高 可 用 、 高 
吞吐 量 和 可 扩展 的 存储 服务 ,将 集群 中 的 各 个 节点 的 存储 能 力 聚 集 起 来 ,并 能 够 自动 屏 
蔽 硬件 故障 ,为 用 户 提供 不 间断 的 数据 存 取 服 务 ; 支持 增 量 扩容 和 数据 的 自动 负载 均衡 ， 
提供 类 似 于 POSIX 的 用 户 空间 文件 访问 API, 支 持 随机 读 / 写 和 追加 写 的 操作 ,是 飞天 平 
台 内 核 中 的 一 个 重要 组 成 部 分 。 

(3) 伏 义 任务 调度 系统 。 该 系统 为 集群 中 的 任务 提供 调度 服务 ,同时 支持 强调 响应 
速度 的 在 线 服务 (Online Service) 和 强调 处 理 数据 吞吐 量 的 离线 任务 (Batch Processing 
Job); 自动 检测 系统 中 的 故障 和 热点 ,通过 错误 重 试 、 针 对 长 尾 作业 并 发 备份 作业 等 方式 
保证 任务 作业 可 靠 ,快速 地 完成 。 伏 义 (Fuxi) 是 飞天 平台 内 核 中 负责 资源 管理 和 任务 调 
度 的 模块 ,同时 也 为 应 用 开发 提供 了 一 套 编程 基础 框架 。 伏 义 同 时 支持 强调 响应 速度 的 
在 线 服 务 和 强调 处 理 数据 吞吐 量 的 离线 任务 。 

(4) 集群 监控 和 部 署 。 神 农 (Shennong) 是 飞天 平台 内 核 中 负责 信息 收集 ,监控 和 诊 
断 的 模块 ,通过 在 每 台 物理 机 器 上 部 署 轻 量 级 的 信息 采集 模块 获取 各 个 机 器 的 操作 系统 
与 应 用 软件 的 运行 状态 ,监控 集群 中 的 故障 ,并 通过 分 析 引 擎 对 整个 飞天 的 运行 状态 进 
行 评 估 ; 大 各 (Dayu) 是 飞天 内 核 中 负责 提供 配置 管理 和 部 署 的 模块 , 它 包 括 一 套 为 集群 
的 运 维 人 员 提 供 的 完整 工具 集 , 功 能 涵盖 了 集群 配置 信息 的 集中 管理 ,集群 的 自动 化 部 
署 、 集 群 的 在 线 升 级 .集群 扩容 、 集 群 缩 容 , 以 及 为 其 他 模块 提供 集群 基本 信息 等 。 


2.3.3 ”阿里 云 飞天 开放 服务 


这 里 简要 介绍 飞天 开放 服务 ,包括 弹性 计算 (ECS) 、 阿 里 云 对 象 存储 (OSS) ,表格 存 
储 服务 (Table Store) .关系 型 数据 库 服务 (RDS) 、 流 式 计算 服务 (StreamCompute) 和 大 数 
据 计算 服务 (MaxCompute) 等 ,这 些 服务 运行 在 飞天 平台 内 核 之 上 。 

(1) 弹性 计算 (ECS)。 云 服务 器 ECS(Elastic Compute Service) 是 一 种 云 计算 服务 ， 
它 的 管理 方式 比 物理 服务 器 更 加 简单 .高效 。 根 据 业 务 的 需要 ,随时 创建 实例 .扩容 磁盘 
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或 释放 任意 多 台 云 服务 器 实例 。 

(2) 阿里 云 对 象 存储 (OSS) 。 阿 里 云 对 象 存储 (Object Storage Service. OSS) 是 阿里 
云 对 外 提供 的 海量 安全、 低 成 本 ,高 可 靠 的 云 存 储 服务 。 用 户 可 以 通过 调用 API 在 任何 
应 用 、 任 何 时 间 、 任 何 地 点 上 传 和 下 载 数据 ,也 可 以 通过 用 户 Web 控制 台 对 数据 进行 简 
单 的 管理 。OSS 适合 存放 任意 文件 类 型 ,适合 各 种 网 站 、 开 发 企业 及 开发 者 使 用 ,具备 高 
可 靠 性 ,安全 性 成 本 低 和 数据 处 理 能 力 强 等 特点 。 

G) 表格 存储 (Table Store)。 它 是 构建 在 阿里 云 飞天 分 布 式 系 统 之 上 的 NoSQL 数 
据 存储 服务 ,提供 海量 结构 化 数据 的 存储 和 实时 访问 。 表 格 存储 以 实例 和 表 的 形式 组 织 
数据 ,通过 数据 分 片 和 负载 均衡 技术 达到 规模 的 无 缝 扩展; 向 应 用 程序 屏蔽 底层 硬件 平 
台 的 故障 和 错误 ,能 自动 从 各 类 错误 中 快速 恢复 ,提供 非常 高 的 服务 可 用 性 ; 数据 全 部 存 
储 在 SSD 中 并 具有 多 个 备份 ,提供 了 快速 的 访问 性 能 和 极 高 的 数据 可 靠 性 。 用 户 在 使 用 
表格 存储 服务 时 只 需要 按照 预 留 和 使 用 的 资源 进行 付费 ,无 须 关 心 数据 库 的 软 /硬件 升 
级 维护 ,集群 缩 容 /扩容 等 复杂 问题 。 

(4) 关系 型 数据 库 服务 (RDS)。 阿 里 云 关 系 型 数据 库 (Relational Database Service, 
RDS) 是 一 种 稳定 可 靠 ` 可 弹性 伸缩 的 在 线 数 据 库 服务 ,基于 飞天 分 布 式 系统 和 高 性 能 存 
储 ,RDS 支持 MySQL, SQL Server, PostgreSQL 和 PPAS (Postgre Plus Advanced 
Server ,一 种 高 度 兼容 Oracle 的 数据 库 ) 引 擎 ,并 且 提 供 了 容 灾 、 备 份 .恢复 ,监控 .迁移 等 
方面 的 全 套 解决 方案 ,彻底 解决 数据 库 运 维 的 烦恼 。 

(5) 流 式 计算 服务 (StreamCompute)。Stream SQL 是 MaxCompute 提供 的 一 种 完 
全 托管 的 分 布 式 数据 流 式 处 理 服务 。 该 功能 底层 采用 先进 的 分 布 式 增 量 计 算 框架 ,可 以 
实现 低 延 迟 响 应 ,以 SQL 的 形式 提供 流 式 计算 服务 ,并 且 完 全 屏蔽 了 流 式 计算 中 复杂 的 
故障 恢复 等 技术 细节 , 极 大 地 提高 了 开发 效率 。 

(6) 大 数据 计算 服务 (MaxCompute)。 大 数据 计算 服务 (MaxCompute, 原 名 ODPS) 
是 一 种 快速 .完全 托管 的 TB/PB 级 数据 仓库 解决 方案 。MaxCompute 向 用 户 提 供 了 完 
善 的 数据 导入 方案 以 及 多 种 经 典 的 分 布 式 计算 模型 ,能 够 更 快速 地 解决 用 户 的 海量 数据 
计算 问题 ,有 效 降低 企业 成 本 ,并 保障 数据 安全 。 

总 体 来 说 ,飞天 核心 服务 分 为 计算 、 存 储 、 数 据 库 和 网 络 。 

CD 为 了 帮助 开发 者 便捷 地 构建 云 上 应 用 ,飞天 提供 了 丰富 的 连接 、 编 排 服 务 , 将 这 
些 核 心服 务 方便 地 连接 和 组 织 起 来 ,包括 通知 、 队 列 、 资 源 编排 ,分 布 式 事务 管理 等 。 

(2) 飞天 接 入 层 包括 数据 传输 服务 ,数据库 同步 服务 .CDN 内 容 分 发 以 及 混合 云 高 
速 通道 等 服务 。 

O 飞天 最 顶层 是 阿里 云 打 造 的 软件 交易 与 交付 第 一 平台 云 市 场 。 它 如 同 云 
计算 的 “App Store” ,用户 可 在 阿里 云 官网 一 键 开通 “软件 十 云 计 算 资 源 ”。 云 市 场 上 架 
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在 售 商品 几 千 个 ,支持 镜像 、 容 器 ,编排 .API、 SaaS、 服 务 、 下 载 等 类 型 的 软件 与 服务 
HA. 

(4) 飞天 有 一 个 全 球 统一 的 账号 体系 。 灵 活 的 认证 授权 机 制 让 云 上 资源 可 以 安全 、 
灵活 地 在 租户 内 或 租户 间 共 享 。 

通过 7 年 实践 ,飞天 已 经 建立 了 一 个 完善 的 云 产品 体系 ,同时 还 能 提供 互联 网 级 别 
的 租户 管理 和 业务 支撑 服务 ,并 拥有 以 下 核心 竞争 力 和 核心 能 力 : 

。 自主 可 控 。 对 云 计算 底层 技术 体系 的 把 控 力 ,自主 研发 ,自己 解决 核心 问题 。 

。 调度 能 力 。10K( 单 集群 一 万 台 服 务 器 ) 的 任务 分 布 式 部 署 和 监控 。 

。 数据 能 力 。EB(10 亿 GB) 级 的 大 数据 存储 和 分 析 能 力 。 

。 安全 能 力 。 为 中 国 35% 的 网 站 提供 防御 。 

。 大 规模 实践 。 经 受 双 11、12306 春运 购 票 等 极限 并 发 场景 挑战 。 

* 开放 的 生态 。 兼 容 大 多 数 生 态 软 件 和 硬件 ,比如 CLoudfudry、Docker、 Hadoop, 


2.3.4 阿里 云 飞 天 的 特色 


1. 阿里 云 飞 天 OpenStack 和 Hadoop 的 不 同 


飞天 是 一 个 操作 系统 ,部 署 在 互联 网 规模 的 基础 设施 之 上 , 它 以 公共 服务 的 方式 对 
外 提供 服务 ,可 以 让 用 户 直 接 联网 使 用 ,并 且 提 供 了 丰富 的 云 服 务 、 数 据 服 务 以 及 完善 的 
安全 体系 和 云 市 场 与 生态 支撑 。 通 过 软 / 硬 件 一 体 化 ,飞天 可 以 实现 更 优 的 性 能 。 客 户 
享受 的 是 云 上 便捷 的 服务 ,可 以 将 人 力 、 物 力 和 时 间 等 资源 使 用 在 更 擅长 的 领域 ,从 而 快 
速 实现 商业 价值 。 

OpenStack 和 Hadoop 是 软件 ,它们 并 没有 解决 客户 的 CAPEX 投入 问题 . 运 维 人 员 
投入 问题 ,需要 部 署 到 自 有 的 硬件 上 ,一 般 只 用 于 单个 企业 的 内 部 环境 。 从 软件 变 成 服 
务 有 很 多 事情 需要 做 ,比如 说 需要 把 这 个 软件 下 载 下 来 ,要 知道 自己 的 硬件 配置 是 什么 ， 
需要 部 署 上 去 ,还 有 监控 ,Hadoop 生态 圈 里 面 虽然 有 这 样 那样 的 解决 方案 ,但 是 并 没有 
很 好 地 集成 起 来 ,这 些 选择 还 是 需要 自己 来 做 。 

从 软件 工程 来 说 ,飞天 是 保持 版 本 迭代 稳定 性 和 一 致 性 的 一 个 完整 架构 ,而 开源 是 
一 个 树 状 分 支 发 展 体系 ,无 法 保障 整体 诉求 的 统一 性 。 

飞天 上 面 提供 了 基于 Hadoop, EMR, Mongo 等 开源 软件 的 托管 服务 ,这 是 飞天 开放 
能 力 的 体现 。 


2. 阿里 云 飞 天 与 VMware、 华 为 FusionSphere 的 不 同 


虚拟 化 不 等 于 云 计算 , 云 的 实时 在 线 、 海 量 弹 性 、 多 租户 隔离 、 专 业 运 维 都 是 传统 虚 
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拟 化 软件 所 欠缺 的 。 

飞天 是 一 个 操作 系统 ,部 署 在 互联 网 规模 的 基础 设施 之 上 , 它 以 公共 服务 的 方式 对 
外 提供 服务 ,并 且 提 供 了 丰富 的 元 数据 服务 .数据 服务 以 及 完善 的 安全 体系 和 云 市 场 及 
生态 支撑 。 客 户 享受 的 是 云 上 便捷 的 服务 , 没 必要 将 人 力 、 物 力 和 时 间 成 本 浪费 在 不 擅 
长 的 领域 ,从 而 快速 实现 商业 价值 。 

而 VMware(ESX、NSX、VSAN) 以 及 华为 FusionSphere 都 是 软件 ,并 没有 解决 客户 
的 CAPEX 投入 问题 . 运 维 人 员 投入 问题 ,一般 只 用 于 单个 企业 的 内 网 环境 ,没有 完善 的 
多 租户 体系 和 生态 体系 。 

VMware 的 三 大 件 主 要 解决 了 计算 的 效率 问题 ,但 是 没有 解决 计算 的 规模 问题 。 

华为 的 FusionSphere 其 实 是 基于 开源 软件 进行 定制 并 适 配 华为 硬件 的 软件 系统 , 飞 
天 内 核 在 规模 ,性 能 、 稳 定性 和 通用 性 上 都 超越 了 FusionSphere。 


2.4 主流 大 数据 系统 厂商 


如 今 , 越 来 越 多 的 企业 和 大 型 机 构 在 寻求 不 断 发 展 的 大 数据 问题 时 都 倾向 于 使 用 开 
源 软件 基础 架构 Hadoop 的 服务 ,因此 许多 公司 推出 了 各 自 版 本 的 Hadoop ,也 有 一 些 公 
司 围绕 Hadoop 开发 产品 。 本 节 将 以 列举 主流 厂商 解决 方案 的 方式 呈现 不 同 厂商 的 处 理 
异同 。 


2.4.1 阿里 云 数 加 平台 


数 加 平台 是 阿里 云 为 企业 大 数据 的 实施 提供 的 一 套 完整 的 一 站 式 大 数据 解决 方案 ， 
覆盖 了 企业 数据 仓库 .商业 智能 .机 器 学 习 \ 数 据 可 视 化 等 领域 ,助力 企业 在 DT 时 代 更 敏 
捷 、 更 智能 、 更 具 洞 察 力 。 

数 加 平台 由 大 数据 计算 服务 (MaxCompute)、 分 析 型 数据 库 (AnalyticDB) 、 流 计算 
(CStreamCompute) 共 同 组 成 了 底层 强大 的 计算 引擎 ,速度 更 快 ,成 本 更 低 。 在 计算 引擎 之 
上 , 数 加 平台 提供 了 丰富 的 云端 数据 开发 套件 ,包括 数据 集成 .数据 开发 .调度 系统 、 数 据 
管理 .和 运 维 视屏 .数据 质量 、 任 务 监控 等 。 

数 加 平台 的 整体 架构 如 图 2-3 所 示 。 

数 加 平台 有 以 下 优势 。 

COD 一 站 式 大 数据 解决 方案 。 从 数据 导入 、 查 找 、 开 发 .ETL、 调 度 、 部 署 、 建 模 、BI E 
表 、 机 器 学 习 到 服务 开发 ,发 布 ,以 及 外 部 数据 交换 的 完整 大 数据 链 路 ,一 站 式 集成 开发 
环境 ,降低 数据 创新 与 创业 成 本 ,如 图 2-4 所 示 。 

(2) 大 数据 与 云 计 算 的 无 颖 结合 。 阿 里 云 数 加 平台 构建 在 阿里 云 的 云 计 算 基 础 设施 
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图 2-3 阿里 云 数 加 平台 架构 


之 上 ,简单 ,快速 地 接 和 信 MaxCompute 等 计算 引擎 ,支持 ECS、RDS、OCS、AnalyticDB 等 
云 设施 下 的 数据 同步 ,为 企业 获得 在 大 数据 时 代 最 重要 的 竞争 力 一 一 智能 化 。 

(3) 企业 级 数据 安全 控制 。 数 加 平台 建立 在 安全 性 业界 领先 的 阿里 云 上 ,并 集成 了 
最 新 的 阿里 云 大 数据 产品 ,这 些 大 数据 产品 的 性 能 和 安全 性 在 阿里 巴巴 集团 内 部 已 经 得 
到 多 年 的 锤炼 。 数 加 平台 采用 了 先进 的 “可 用 不 可 见 ” 的 数据 合作 方式 ,并 对 数据 所 有 者 
提供 全 方位 的 数据 安全 服务 ,数据 安全 体系 包括 数据 业务 安全 .数据 产品 安全 .底层 数据 
安全 、 云 平台 安全 、 接 入 和 网 络 安 全 、 运 维 管理 安全 。 
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图 2-4 一 站 式 解 决 方案 


2.4.2 Cloudera 


Cloudera 是 一 家 专业 从 事 基于 Apache Hadoop 的 数据 管理 软件 销售 和 服务 的 公司 ， 
它 发 布 的 实时 查询 开源 项 目 Impala 比 基 于 MapReduce 的 Hive SQL 的 查询 速度 提升 了 
3 一 90 fff. Impala 是 Google Dremel 的 模仿 ,但 在 SQL 功能 上 更 胜 一 筹 ,而 且 使 用 简单 、 
灵活 。 
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Cloudera Impala 对 存储 在 Apache Hadoop HDFS, HBase 的 数据 提供 直接 查询 互动 
的 SQL, 既 可 以 像 Hive 使 用 相同 的 统一 存储 平台 ,Impala 也 使 用 相同 的 元 数据 ,SQL if 
法 (Hive SQL) .ODBC 驱动 程序 和 用 户 界面 (Hue Beeswax), Impala 还 提供 了 一 个 面向 
批量 或 实时 查询 的 统一 平台 。 

Flume 是 Cloudera 提供 的 一 个 高 可 用 性 、 高 可 靠 性 、 分 布 式 的 海量 日 志 采 集 、 聚 合 和 
传输 的 系统 , 它 支持 在 日 志 系统 中 定制 各 类 数据 发 送 方 , 用 于 收集 数据 ; 同时 ,Flume 提 
供 对 数据 进行 简单 处 理 并 写 到 各 种 数据 接受 方 (可 定制 ) 的 能 力 。 

Flume 提供 了 从 console( 控 制 台 ) .RPC(Thrift-RPC) ,text( 文 件 ) tail (UNIX tail), 
syslog(syslog 日 志 系统 ,支持 TCP 和 UDP 两 种 模式 ) .exec( 命 令 执 行 ) 等 数据 源 上 收集 
数据 的 能 力 。 

Flume 采用 了 多 Master 的 方式 。 为 了 保证 配置 数据 的 一 致 性 ,其 引入 了 ZooKeeper, 用 
于 保存 配置 数据 ,ZooKeeper 本 身 可 保证 配置 数据 的 一 致 性 和 高 可 用 。 另 外 ,在 配置 数据 
发 生变 化 时 ,ZooKeeper 可 以 通知 Flume 的 Master 节点 。Flume Master 间 使 用 Gossip 
协议 对 数据 进行 同步 。 


2.4.3 Hortonworks 


Hortonworks 的 开放 式 互联 平台 能 帮助 企业 管理 所 拥有 的 数据 (动态 数据 以 及 静态 
数据 ) ,为 用 户 组 织 启 用 可 操作 情报 。 

HDP( Hortonworks Data Platform) 是 一 款 基 于 Apache Hadoop 的 开源 数据 平台 ， 
提供 大 数据 云 存储 、 大 数据 处 理 和 分 析 等 服务 。 该 平台 专门 用 来 应 对 多 来 源 和 多 格式 的 
数据 ,并 使 其 处 理 起 来 能 变 得 更 加 简单 、 更 有 成 本 效益 。 

HDP 还 提供 了 一 个 开放 、 稳 定 和 高 度 可 扩展 的 平台 ,使 其 更 容易 地 集成 Apache 
Hadoop 的 数据 流 业 务 与 现 有 的 数据 架构 。 该 平台 包括 各 种 Apache Hadoop 项 目 以 及 
Hadoop 分 布 式 文件 系统 (HDFS)、MapReduce、Pig、Hive、HBase、ZooKeeper 和 其 他 各 
种 组 件 ,使 Hadoop 的 平台 更 易于 管理 ,更 加 具有 开放 性 以 及 可 扩展 性 。 


2.4.4 Amazon 


Amazon 公司 的 AWS 本 身 就 是 最 完整 的 大 数据 平台 ,Amazon Web Services 提供 了 
一 系列 广泛 的 服务 ,可 以 快速 .轻松 地 构建 和 部 署 大 数据 分 析 应 用 程序 。 借 助 AWS 可 以 
迅速 扩展 几乎 任何 大 数据 应 用 程序 ,其 中 包括 数据 仓库 、 点 击 流 分 析 、 欺 诈 侦 测 、 推 荐 引 
擎 .事件 驱动 ETL ,无 服务 器 计算 和 物 联网 处 理 等 应 用 程序 。 
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Amazon EMR 是 一 种 Web 服务 , 旨 在 实现 轻松 快速 并 经 济 高 效 地 处 理 大 量 的 数据 。 

Amazon EMR 提供 托管 的 Hadoop 框架 ,可 以 在 多 个 支持 动态 扩展 的 Amazon EC2 
实例 之 间 分 发 和 处 理 大 量 数据 。 这 里 的 Hadoop 也 可 以 替换 为 其 他 常用 的 分 发 框架 , 例 
如 Spark 或 Presto。 同 时 框架 中 的 文件 系统 可 以 使 用 AWS 数据 服务 代替 ,例如 Amazon 
S3 fll Amazon DynamoDB. ,用 于 进行 数据 交换 。Amazon EMR 能 够 安全 .可 靠 地 处 理 大 
数据 使 用 案例 ,包括 日 志 分 析 、Web 索引 、 数 据 仓库 、 机 器 学 习 、 财 务 分析 等 ,还 原生 支持 
了 全 文 索引 ElasticSearch, 


2.4.5 Google 


Google 公司 作为 大 数据 研究 的 引领 者 ,为 大 数据 的 研究 和 应 用 提供 了 大 量 的 论文 和 
实现 。 其 中 Google 文件 系统 (Google File System,GFS) 作 为 Google 大 数据 存储 与 处 理 
的 基石 ,其 开源 实现 HDFS 也 是 Hadoop 的 关键 组 件 。GFS 采用 大 量 的 低 可 靠 性 PC FJ 
成 集群 系统 的 思想 也 为 后 来 的 大 数据 系统 所 继承 。GFS 采用 “ 主 控 ” 服 务 器 “Chunk” 服 
务 器 与 客户 端的 架构 ,实现 了 分 布 式 存储 对 应 用 开发 者 的 透明 化 ,使 其 类 似 于 本 地 的 文 
件 系统 ,这 一 机 制 也 广泛 被 各 种 分 布 式 文件 系统 所 采用 。 

不 止 如 此 ,Google 提出 的 MapReduce 计算 框架 在 很 多 大 数据 领域 得 到 了 非常 广泛 
的 应 用 ; Google 研发 的 针对 分 布 式 系统 协调 管理 的 粗 粒度 锁 服务 Chubby 实现 了 一 个 实 
例 对 上 万 台 机 器 的 协同 管理 ; Google 针对 微服 务 架构 提出 的 GRC 远程 调用 框架 实现 了 
分 布 式 系统 对 不 同 语言 和 框架 的 兼容 ,让 新 的 编程 模型 一 一 微服 务 架构 的 实际 应 用 成 为 
了 现实 。 

可 以 说 ,Google 在 大 数据 领域 拥有 最 多 的 成 熟 解决 方案 ,也 对 大 数据 技术 的 发 展 起 
到 了 非常 重要 的 推动 作用 。 


2.4.6 微软 


微软 公司 推出 的 商业 数据 分 析 系 统 Microsoft Analytics Platform System 能 够 通过 
其 扩充 的 大 规模 平行 处 理 整 合式 系统 支持 混合 格式 的 数据 仓库 , 借 此 适应 数据 仓库 环境 
不 断 发 展 的 需求 。 它 能 够 运用 Microsoft PolyBase 和 从 SQL Server 以 来 积累 的 海量 数 
据 处 理 技术 ,在 关系 式 和 非 关 系 式 数据 库 中 进行 查询 。 

此 外 ,微软 还 提供 了 基于 Hadoop 的 分 布 式 解决 方案 Microsoft Azure, 其 中 最 值得 
注意 的 是 “云端 Hadoop” 一 一 HDInsight, 它 提供 了 一 系列 全 面 的 Apache 大 数据 项 目的 
托管 服务 。Azure HDInsight 使 用 Hortonworks Data Platform (HDP) 分 布 式 Hadoop。 
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HDInsight 在 云 上 部 署 Hadoop 集群 ,并 提供 管理 服务 和 一 个 处 理 、 分 析 以 及 报告 大 数据 
的 高 稳定 性 和 可 用 性 框架 。HDInsight 同时 还 支持 Apache 的 Storm 平台 ,以 提供 即时 
监控 和 串 流 数据 分 析 。 


2.5 习题 


. 简要 介绍 大 数据 访问 框架 的 主流 实现 技术 。 
. 介绍 大 数据 系统 运行 框架 设计 的 组 成 部 分 。 
. 简 述 大 数据 系统 物理 架构 设计 中 映射 过 程 需要 考虑 的 问题 。 
. 简 述 大 数据 安全 架构 设计 针对 的 3 层 内 容 。 
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分 布 式 通 信和 与 协同 


在 大 规模 分 布 式 系统 中 ,为 了 高 效 地 处 理 大 量 任务 以 及 存储 大 量 数据 ,通常 需要 涉 
及 多 个 处 理 节点 ,需要 在 多 个 节点 之 间 通 信 以 及 协同 处 理 。 高 效 的 节点 之 间 的 通信 以 及 
节点 之 间 的 可 靠 协同 技术 是 保证 分 布 式 系统 正常 运行 的 关键 。 


3.1 数据 编码 传输 


3.1.1 数据 编码 概述 


在 分 布 式 系统 中 需要 处 理 大 量 的 网 络 数据 ,为 了 加 快 网 络 数据 的 传输 速度 ,通常 需 
要 对 传输 数据 进行 编码 压缩 ,当然 数据 编码 压缩 传输 技术 也 在 其 他 电子 信息 领域 中 大 量 
使 用 ,由 于 数字 化 的 多 媒体 信息 尤其 是 数字 视频 ,音频 信号 的 数据 量 特别 庞大 ,如 果 不 对 
其 进行 有 效 的 压缩 难以 得 到 实际 的 应 用 ,因此 数据 编码 压缩 技术 已 成 为 当今 数字 通信 、 
广播 .存储 和 多 媒体 娱乐 中 的 一 项 关键 的 共性 技术 。 

数据 压缩 是 以 尽 可 能 少 的 数码 来 表示 信 源 所 发 出 的 信号 ,减少 容纳 给 定 的 消息 集合 
或 数据 采样 集合 的 信号 空间 。 这 里 讲 的 信号 空间 就 是 被 压缩 的 对 象 ,是 指 某 信号 集合 所 
占 的 时 域 . 空 域 和 频 域 。 信 号 空间 的 这 几 种 形式 是 相互 关联 的 ,存储 空间 的 减少 意味 着 
信和 号 传输 效率 的 提高 ,所 占用 带宽 的 节省 。 只 要 采取 某 种 方法 来 减少 某 个 信号 空间 就 能 

一 般 来 说 ,数据 压缩 主要 是 通过 数据 压缩 编码 来 实现 的 。 要 想 使 编码 有 效 , 必 须 
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建立 相应 的 系统 模型 。 在 给 定 的 模型 下 通过 数据 编码 来 消除 元 余 , 大 致 有 以 下 3 种 
情况 。 

(1) 信 源 符号 之 间 存 在 相关 性 。 如 果 消 除了 这 些 相关 性 ,就 意味 着 数据 压缩 。 例 如 ， 
位 图 图 像 像 素 与 像素 之 间 的 相关 性 ,动态 视频 帧 与 帧 之 间 的 相关 性 。 去 掉 这 些 相关 性 通 
常 采 用 预测 编码 .变换 编码 等 方法 。 

(2) 信 源 符号 之 间 存 在 分 布 不 等 概 性 。 根 据 不 同 符号 出 现 的 不 同 概率 分 别 进行 纺 
码 , 概 率 大 的 符号 用 较 短 的 码 长 编码 ,概率 小 的 符号 用 较 长 的 码 长 编码 ,最 终 使 信 源 的 平 
均码 长 达到 最 短 。 通 常 采用 统计 编码 的 方法 。 

(3) 利用 信息 内 容 本 身 的 特点 (如 自 相 似 性 )。 用 模型 的 方法 对 需 传输 的 信息 进行 参 
数 估 测 ,充分 利用 人 类 的 视觉 .听觉 等 特性 ,同时 考虑 信息 内 容 的 特性 ,确定 并 效 选 出 其 
中 的 部 分 内 容 ( 而 不 是 全 部 内 容 ) 进 行 编码 ,从 而 实现 数据 压缩 。 通 常 采用 模型 基 编 码 的 
方法 。 

目前 比较 认同 的 、 常 用 的 数据 压缩 的 编码 方法 大 致 分 为 两 大 类 。 

COD. 元 余 压缩 法 或 无 损 压缩 法 。 元 余 压缩 法 或 无 损 压缩 法 又 称 为 无 失真 压缩 法 或 炉 
编码 法 。 这 类 压缩 方法 只 是 去 掉 数 据 中 的 元 余部 分 ,并 没有 损失 , 而 这 些 元 余数 据 是 
可 以 重新 插入 到 原 数 据 中 的 。 也 就 是 说 ,去 掉 宛 余 不 会 减少 信息 量 , 而 且 仍 可 原样 恢复 
数据 。 因 此 ,这 类 压缩 方法 是 可 逆 的 。 

(2) HER Ai ids BT TR ME. OCA TF A s T FA aA T ei e it TT AA 
的 信息 是 不 能 恢复 的 。 因 此 ,在 用 门限 值 采 样 量化 时 ,如 果 只 存储 门限 内 的 数据 ,那么 原 
来 超过 这 个 预 署 门限 的 数据 将 丢失 。 这 种 压缩 方法 虽然 可 压缩 大 量 的 信号 空间 ,但 那些 
丢失 的 实际 样 值 不 可 能 恢复 ,是 不 可 逆 的 。 也 就 是 说 ,在 用 焙 压 缩 法 时 数据 压缩 要 以 一 
定 的 信息 损失 为 代价 ,而 数据 的 恢复 只 能 是 近似 的 ,应 根据 条 件 和 要 求 在 允许 的 范围 内 
进行 压缩 。 


3.1.2 LZSS 算法 


LZSS 算法 属于 字典 算法 ,是 把 文本 中 出 现 频率 较 高 的 字符 组 合 做 成 一 个 对 应 的 字 
典 列 表 , 并 用 特殊 代码 来 表示 这 个 字符 。 图 3-1 为 字典 算法 原理 图 示 。 

LZSS 算法 的 字典 模型 使 用 自 适应 方式 ,基本 的 思路 是 搜索 目前 待 压 缩 串 是 否 在 以 

出 现 过 ,如 果 出 现 过 , 则 利用 前 次 出 现 的 位 置 和 长 度 来 代替 现在 的 待 压 缩 串 ,输出 该 字 

守 串 的 出 现 位 置 及 长 度 ; 否则 ,输出 新 的 字符 串 ,从 而 起 到 压缩 的 目的 。 但 是 在 实际 使 用 

过 程 中 ,由 于 被 压缩 的 文件 往往 较 大 ,一 般 使 用 “滑动 窗口 压缩 "方式 ,也 就 是 说 将 一 个 虚 

拟 的 、 可 以 跟随 压缩 进程 滑动 的 窗口 作为 术语 字典 。LZSS 算法 最 大 的 好 处 是 压缩 算法 





a =k 
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的 细节 处 理 不 同 , 只 对 压缩 率 和 压缩 时 间 有 影响 ,不 会 影响 到 解压 程序 。LZSS 算法 最 大 
的 问题 是 速度 ,每 次 都 需要 向 前 搜索 到 原文 开头 ,对 于 较 长 的 原文 需要 的 时 间 是 不 可 忍 
受 的 ,这 也 是 LZSS 算法 较 大 的 一 个 缺点 。 
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3.1.3 Snappy 压缩 库 


Snappy 是 在 Google 公司 内 部 生产 环境 中 被 许多 项 目 使 用 的 压缩 /解压 缩 的 链接 库 ， 
使 用 该 库 的 软件 包括 BigTable, MapReduce 和 RPC 等 ,Google 公司 于 2011 年 开源 了 该 
压缩 /解压 缩 库 。 在 Intel Bh ë i7 处 理 器 上 ,在 单 核 64 位 模式 下 ,Snappy 的 压缩 速度 大 
概 可 以 达到 250MB/s 或 者 更 快 ,解压 缩 可 以 达到 大 约 500MB/s 甚至 更 快 。 如 此 高 的 压 
缩 速度 是 通过 降低 压缩 率 来 实现 的 ,因此 其 输出 要 比 其 他 库 大 20% ~ 100%. Snappy 对 
于 纯 文 本 的 压缩 率 为 1. 5 一 1.7. 对 于 HTML 是 2~4, 当 然 ,对 于 JPEG、PNG 和 其 他 已 
经 压缩 过 的 数据 的 压缩 率 为 1.0。 

Snappy 压缩 库 采用 C++ 实现 ,同时 提供 了 多 种 其 他 语言 的 接口 ,包括 C.C # Go, 
Haskell 等 。Snappy 是 面向 字 节 编 码 的 LZ77 类 型 压缩 器 。Snappy 采用 的 编码 单元 是 
字 节 (byte) ,而 不 是 比特 (bit) ,采用 该 压缩 库 压缩 后 的 数据 形成 一 个 字 节 流 的 格式 ,格式 
如 下 : 前 面 几 个 字 节 表示 总 体 为 压缩 的 数据 流 长 度 ,采用 小 端 方 式 (little-endian) 存 储 ， 
同时 兼顾 可 变 长 度 编码 ,每 个 字 节 的 后 面 7 位 存储 具体 的 数据 ,最 高 位 用 于 表示 下 一 个 
字 节 是 否 为 同一 个 整数 ; 剩 下 的 字 节 用 4 种 元 素 类 型 中 的 一 种 进行 编码 ,元 素 类 型 在 元 
素数 据 中 的 第 一 个 字 节 ,该 字 节 的 最 后 2 位 表示 类 型 。 

00。 文 本 数据 ,属于 未 压缩 数据 ,类 型 字 节 的 高 6 位 用 于 存储 每 个 元 素 的 数据 内 
容 长 度 。 当 数据 内 容 超 过 60 个 字 节 时 ,采用 额外 的 可 变 长 编码 方式 存储 数据 。 
01。 数 据 长 度 用 3 位 存储 , 偏 移 量 用 11 位 存储 。 紧 接着 类 型 字 节 后 的 第 一 个 字 
节 也 用 于 存储 偏 移 量 。 
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° 10。 类 型 字 节 中 剩 下 的 高 6 位 用 于 存储 数据 长 度 ,在 类 型 字 节 后 的 两 个 字 节 用 于 
存储 数据 的 偏 移 量 。 

。，11。 类 型 字 节 中 剩 下 的 高 6 位 用 于 存储 数据 长 度 , 数 据 偏 移 量 存储 在 类 型 字 节 后 
的 4 个 字 节 , 偏 移 量 采用 小 端 方式 存储 数据 。 


3.2 分 布 式 通信 系统 


分 布 式 通信 研究 分 布 式 系统 中 不 同 子 系统 或 进程 之 间 的 信息 交换 机 制 。 我 们 从 各 
种 大 数据 系统 中 归纳 出 3 种 最 常见 的 通信 机 制 : 远程 过 程 调用 、 消 息 队 列 和 多 播 通 信 。 
其 中 ,远程 过 程 调用 的 重点 是 网 络 中 位 于 不 同 机 器 上 进程 之 间 的 交互 ; 消息 队列 的 重点 
是 子 系统 之 间 的 消息 可 靠 传递 ; 多 播 通信 是 实现 信息 的 高 效 多 播 传递 。 这 三 者 都 是 黏合 
子 系统 的 有 效 工 具 , 同 时 ,它们 对 于 减少 大 数据 系统 中 构件 之 间 的 耦合 .增强 各 自 的 独立 
演进 有 很 大 的 帮助 作用 。 


3.2.1 远程 过 程 调用 


远程 过 程 调用 (Remote Procedure Call,RPC) 是 一 个 计算 机 通信 协议 ,通过 该 协议 运 
行 于 一 台 计 算 机 上 的 程序 可 以 调用 另 一 台 计 算 机 的 子 程序 ,而 程序 员 无 须 额 外 地 为 这 个 
交互 编程 。 

通用 的 RPC 框架 都 支持 以 下 特性 : 接口 描述 语言 .高 性 能 、 数 据 版 本 支持 以 及 二 进 
制 数据 格式 。 

Thrift 是 由 Facebook 公司 开发 的 远程 服务 调用 框架 , 它 采用 接口 描述 语言 定义 并 创 
建 服务 ,支持 可 扩展 的 跨 语 言 服 务 开发 ,所 包含 的 代码 生成 引擎 可 以 在 多 种 语言 中 ,如 
C++ „Java, Python, PHP, Ruby, Erlang, Perl, Haskell, C = , Cocoa, Smalltalk 等 ,创建 高 
效 的 ,无 颖 的 服务 。 其 传输 数据 采用 二 进 制 格式 ,相对 于 XML 和 JSON 体积 更 小 ,对 于 
高 并 发 .大 数据 量 和 多 语言 的 环境 更 有 优势 。 

Thrift 包含 了 一 个 完整 的 堆栈 结构 ,用 于 构建 客户 端 和 服务 器 端 。 服 务 器 包含 用 于 
绑 定 协议 和 传输 层 的 基础 架构 , 它 提供 阻塞 、 非 阻塞 、 单 线程 和 多 线程 的 模式 运行 在 服务 
器 上 ,可 以 配合 服务 器 /容器 一 起 运行 ,可 以 和 现 有 的 服务 器 /容器 无 颖 结合。 

其 使 用 流程 大 致 如 下 。 

首先 使 用 IDL 定义 消息 体 以 及 RPC 函数 调用 接口 。 使 用 IDL 可 以 在 调用 方 和 被 调 
用 方 解 耦 ,比如 调用 方 可 以 使 用 C++ ,被 调用 方 可 以 使 用 Java, 这 样 给 整个 系统 带 来 了 极 
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大 的 灵活 性 。 

然后 使 用 工具 根据 IDL 定义 文件 生成 指定 编程 语言 的 代码 。 

最 后 即 可 在 应 用 程序 中 连接 使 用 上 一 步 生 成 的 代码 。 对 于 RPC 来 说 ,调用 方 和 被 
调用 方 同时 引入 后 即 可 实现 透明 的 网 络 访问 。 


3.2.2 消息 队列 


消息 队列 也 是 设计 大 规模 分 布 式 系统 时 经 常 采 用 的 中 间 件 产品 。 分 布 式 系统 构件 
之 间 通 过 传递 消息 可 以 解除 相互 之 间 的 功能 耦合 ,这 样 减轻 了 子 系统 之 间 的 依赖 ,使 得 
各 个 子 系统 或 者 构建 可 以 独立 演进 、 维 护 或 重用 。 消 息 队列 是 在 消息 传递 过 程 中 保存 消 
息 的 容器 或 中 间 件 ,其 主要 目的 是 提供 消息 路 由 并 保障 消息 可 靠 传递 。 

下 面 通过 Linkedin 开源 的 分 布 式 消息 系统 Kafka 介绍 消息 队列 系统 的 整体 设计 

Kafka 采用 Pub-Sub 机 制 ,具有 极 高 的 消息 吞吐 量 、 较 强 的 可 扩展 性 和 高 可 用 性 , 消 
息 传递 延迟 低 , 能 够 对 消息 队列 进行 持久 化 保存 , 且 支 持 消息 传递 的 "至少 送 达 一 次 ” 
语义 。 

一 个 典型 的 Kafka 集群 中 包含 若干 producer, 4# F broker # F consumer group, LA 
及 一 个 ZooKeeper 集群 。Kafka 通过 ZooKeeper 管理 集群 配置 ,选举 leader, 以 及 在 
consumer group 发 生变 化 时 进行 rebalance。producer 使 用 push 模式 将 消息 发 布 到 
broker. consumer 使 用 pull 模式 从 broker 订阅 并 消费 消息 。 

作为 一 个 消息 系统 ,Kafka 遵循 了 传统 的 方式 ,选择 由 producer 向 broker push 消息 
并 由 consumer 向 broker pull 消息 。push 模式 很 难 适应 消费 速率 不 同 的 consumer, 因 为 
消息 发 送 速率 是 由 broker 决定 的 。push 模式 的 目标 是 尽 可 能 以 最 快 的 速度 传递 消息 ， 
但 是 这 样 很 容易 造成 consumer 来 不 及 处 理 消息 ,典型 的 表现 就 是 拒绝 服务 以 及 网 络 阻 
3E, pull 模式 可 以 根据 consumer 的 消费 能 力 以 适当 的 速率 消费 信息 。 


3.2.3 应 用 层 多 播 通信 


分 布 式 系统 中 的 一 个 重要 的 研究 内 容 是 如 何 将 数据 通知 到 网 络 中 的 多 个 接收 
方 , 这 一 般 被 称 为 多 播 通 信 。 与 网 络 协 议 层 的 多 播 通信 不 同 , 这 里 介绍 的 是 应 用 层 
多 播 通信 。Gossip 协议 就 是 常见 的 应 用 层 多 播 通信 协议 ,与 其 他 多 播 协议 相 比 ,其 
在 信息 传递 的 健壮 性 和 传播 效率 方面 有 较 好 的 折 中 效果 ,使 其 在 大 数据 领域 中 得 以 
广泛 使 用 。 
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Gossip 协议 也 被 称 为 "感染 协议 (Epidemic Protocol), 用 来 尽快 地 将 本 地 更 新 数据 
通知 到 网 络 中 的 所 有 其 他 节点 。 其 具体 更 新 模型 又 可 以 分 为 3 种 : 全 通知 模型 . 反 炉 模 
型 和 散步 谣言 模型 。 

在 全 通知 模型 中 , 当 某 个 节点 有 更 新 消息 时 立即 通知 所 有 其 他 节点 ; 其 他 节点 在 接 
收 到 通知 后 判断 接收 到 的 消息 是 否 比 本 地 消息 要 新 ,如 果 是 , 则 更 新 本 地 数据 ,否则 ,不 
采取 任何 行为 。 反 炉 模 型 是 最 常用 的 “Gossip HN”, Z Br EUER È y" cd" Je PELO "i" 
是 用 来 衡量 系统 混乱 无 序 程度 的 指标 , 粹 越 大 说 明 系 统 越 无 序 。 系 统 中 更 新 的 信息 经 过 
一 定 轮 数 的 传播 后 ,集群 内 的 所 有 节点 都 会 获得 全 局 最 新 信息 ,所 以 系统 变 得 越 来 越 有 
序 ,这 就 是 “ 反 炉 "的 含义 。 

dk BL EE rp y ex P Bü DLE TE ETE rh 9 03 — 3 Xx Q, 然 后 与 Q 交换 更 新 信 
息 ; WR Q 信息 有 更 新 , 则 类 似 书 一样 传播 给 任意 其 他 节点 (此 时 己 也 可 以 再 传播 
给 其 他 节点 ) ,这样 经 过 一 定 轮 数 的 信息 交换 ,更 新 的 信息 就 会 快速 传播 到 整个 网 络 
节点 。 

散步 谣言 模型 与 反 炉 模型 相 比 增加 了 传播 停止 判断 。 即 如 果 节 点 卫 更 新 了 数据 , 则 
随机 选择 节点 Q 交换 信息 ; 如 果 节 点 Q 已 经 从 其 他 节点 处 得 知 了 该 更 新 ,那么 节点 卫 降 
低 其 主动 通知 其 他 节点 的 概率 ,直到 一 定 程度 后 ,节点 已 停止 通知 行为 。 散 布 谣言 模型 
能 够 快速 传播 变化 ,但 不 能 保证 所 有 节点 都 能 最 终 获 得 更 新 。 


3.2.4 MES RPC 系统 


在 分 布 式 系统 中 ,不 同 计算 机 之 间 只 能 通过 消息 交换 的 方式 进行 通信 。 显 式 的 消息 
通信 必须 通过 Socket 接口 编程 ,而 RPC 可 以 隐藏 显 式 的 消息 交换 ,使 得 程序 员 可 以 像 调 
用 本 地 函数 一 样 来 调用 远程 的 服务 。 

夸 父 (Kuafu) 是 飞天 平台 内 核 中 负责 网 络 通信 的 模块 , 它 提 供 了 一 个 RPC 的 接口 ， 
简化 编写 基于 网 络 的 分 布 式 应 用 。 筷 父 的 设计 目标 是 提供 高 可 用 (7X24 小 时 )、 大 吞吐 
fit (Gigabyte) ,高 效率 、 易 用 (简明 API、 多 种 协议 和 编程 接口 ) 的 RPC 服务 。 

RPC 客户 端 (RPC Client) 通 过 URI 指定 请 求 需要 发 送 的 RPC 服务 端 (RPC Server) 
的 地 址 ,目前 夸 父 支持 两 种 协议 形式 。 

。 TCP。 例 如 tcp://fooserver01:9000, 

e Nuwa。 例 如 nuwa://nuwa01/FooServer, 

与 用 流 (Stream) 传 输 的 TCP 通信 相 比 , 夸 父 通信 是 以 消息 (Message) 为 单位 的 , 支 
持 多 种 类 型 的 消息 对 象 ,包括 标准 字符 串 std:: string 和 基于 std::map 实现 的 若干 
string 键 - 值 对 。 
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4 RPC 同时 支持 异步 (asynchronous) 和 同步 (synchronous) 的 远程 过 程 调用 
形式 。 

COD 异步 调用 。RPC 也 数 调 用 时 不 等 接收 到 结果 就 会 立即 返回 ,用 户 必须 通过 显 式 
调用 接收 函数 取得 请 求 结果 。 

(2) 同步 调用 。RPC 函数 调用 时 会 等 待 ,直到 接收 到 结果 才 返 回 。 在 实现 中 ,同步 
调用 是 通过 封装 异步 调用 来 实现 的 。 

在 夸 父 的 实现 中 ,客户 端 程序 通过 UNIX Domain Socket 与 本 机 上 的 一 个 夸 父 代理 
(Kuafu Proxy) 连 接 ,不 同 计算 机 之 间 的 夸 父 代理 会 建立 一 个 TCP 连接。 这 样 做 的 好 处 
是 可 以 更 高 效 地 使 用 网 络 带 宽 , 系 统 可 以 支持 上 千 台 计算 机 之 间 的 互联 需求 。 此 外 , 夸 
父 利 用 女 娲 来 实现 负载 均衡 ; 对 大 块 数据 的 传输 作 了 优化 ; 与 TCP 类 似 , 夸 父 代理 之 间 
还 实现 了 发 送 端 和 接收 端的 流 控 (Flow Control) 机 制 。 


3.2.5 Hadoop IPC 的 应 用 


这 里 以 Hadoop 中 的 RPC 框架 Hadoop IPC 为 基础 讲述 RPC 框架 在 大 数据 系统 中 
的 应 用 。Hadoop 系统 包括 Hadoop Common, Hadoop Distributed File System, Hadoop 
MapReduce 几 个 重要 的 组 成 部 分 ,其 中 ,Hadoop Common 用 于 提供 整个 Hadoop 公共 服 
务 , 包 括 Hadoop IPC。 在 Hadoop 系统 中 , Hadoop IPC 为 HDFS, MapReduce 提供 了 高 
效 的 RPC 通信 机 制 ,在 HDFS 中 , DFSClient 模块 需要 与 NameNode 模块 通信 、 
DFSClient 模块 需要 与 DataNode 模块 通信 .MapReduce 客户 端 需要 与 JobTracker 通信 ， 
Hadoop IPC 为 这 些 模块 之 间 的 通信 提供 了 一 种 便利 的 方式 。 

目前 实现 的 Hadoop IPC 具有 采用 TCP 方式 连接 .支持 超时 、 缓 存 等 特征 。Hadoop 
IPC 采用 的 是 经 典 的 C/S 结构 。 

Hadoop IPC 的 Server 端 相 对 比较 复杂 ,包括 Listener, Reader, Handler 和 
Responder 等 多 种 类 型 的 线程 ,Listener 用 于 侦 听 来 自 IPC Client 端的 连接 ,同时 也 负责 
管理 与 Client 端 之 间 的 连接 ,包括 Client 端 超时 需要 删除 连接 ; Reader 线程 用 于 读 取 来 
自 Client 端的 数据 , Handler 线程 用 于 处 理 来 自 Client 端的 请 求 ,执行 具体 的 操作 ; 
Responder 线程 用 于 返回 处 理 结果 给 Client 端 。 一 般配 置 是 一 个 Listener、 多 个 Reader, 
多 个 Handler 和 一 个 Responder, Hadoop IPC 的 组 成 如 图 3-2 所 示 。 

执行 HDFS 读 文 件 操作 ,首先 DFSClient 利用 Hadoop IPC 框架 发 起 一 次 RPC 请 求 
给 NameNode, 获 取 DataBlock 信息 。 

在 执行 HDFS 数据 恢复 操作 的 时 候 , DFSClient 需要 执行 recoverBlock RPC 操作 ， 
发 送 该 请 求 到 DataNode 节点 上 。 
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图 3-2 Hadoop IPC 的 组 成 


3.3 分 布 式 协同 系统 


当前 的 大 规模 分 布 式 系统 涉及 大 量 的 机 器 ,这 些 机 器 之 间 需 要 进行 大 量 的 网 络 通信 
以 及 各 个 节点 之 间 的 消息 通信 协同 。 为 了 减少 分 布 式 系统 中 这 些 工 作 的 重复 开发 , 解 耦 
出 分 布 式 协同 系统 ,有 效 地 提高 了 分 布 式 计算 、 分 布 式 存储 等 系统 的 开发 速度 。 


3.3.1 Chubby 锁 服务 


Chubby 是 Google 公司 研发 的 针对 分 布 式 系统 协调 管理 的 粗 粒 度 服务 ,一 个 
Chubby 实例 大 约 可 以 负责 1 万 台 4 核 CPU 机 器 之 间 对 资源 的 协同 管理 。 这 种 服务 的 主 
要 功能 是 让 众多 客户 端 程序 进行 相互 之 间 的 同步 .并 对 系统 环境 或 资源 达成 一 致 的 认 知 。 

Chubby 的 理论 基础 是 Paxos( 一 致 性 协议 ),Paxos 是 在 完全 分 布 式 环境 下 不 同 客户 
端 能 够 通过 交互 通信 并 投票 对 于 某 个 决定 达成 一 致 的 算法 。Chubby 以 此 为 基础 ,但 是 
也 进行 了 改造 ,Paxos 是 完全 分 布 的 ,没有 中 心 管理 节点 ,需要 通过 多 轮 通信 和 投票 来 达 
成 最 终 的 一 致 ,所 以 效率 低 ; Chubby 出 于 对 系统 效率 的 考虑 ,增加 了 一 些 中 心 管理 策略 ， 
在 达到 同一 目标 的 情况 下 改善 了 系统 效率 。 

Chubby 的 设计 目标 基于 以 下 几 点 : 高 可 用 性 、 高 可 靠 性 ,支持 粗 粒 度 的 建议 性 锁 服 
务 支持 小 规模 文件 直接 存储 。 这 些 当 然 是 用 高 性 能 与 存储 能 力 折 中 而 来 的 。 

图 3-3 是 Google 论文 中 描述 的 Chubby 的 整体 架构 ,可 以 容易 地 看 出 Chubby 共 
5 台 服 务 器 ,其 中 一 个 是 主 服务 器 ,客户 端 与 服务 器 之 间 使 用 RPC 交互 。 那 么 ,其 他 服务 
器 是 干什么 的 ? 它们 纯粹 是 作为 主 服务 器 不 可 用 后 的 替代 品 。 而 ZooKeeper 的 多 余 服 
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务 器 均 是 提供 就 近 服 务 的 ,也 就 是 服务 器 会 根据 地 理 位 置 与 网 络 情况 来 选择 对 哪些 客户 
端 给 予 服务 。 
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图 3-3 Chubby 整体 架构 


Chubby 单元 中 的 主 服务 器 由 所 有 服务 器 选举 推出 ,但 是 并 非 从 始 至 终 一 直 都 由 其 
担任 这 一 角色 , 它 是 有 “任期 ”的 , 即 Master Lease, 一 般 长 达 几 秒 。 如 果 无 故障 发 生 ,一 
般 系统 尽量 将 “租约 ” 交 给 原先 的 主 服 务 器 ,否则 可 以 通过 重新 选举 得 到 一 个 新 的 全 局 管 
理 服务 器 ,这 样 就 实现 了 主 服 务 器 的 自动 切换 。 

客户 端 通过 嵌入 的 库 程序 ,利用 RPC 通信 和 服务 器 进行 交互 ,对 Chubby 的 读 / 写 请 
求 都 由 主 服务 器 负责 。 主 服务 器 遇 到 数据 更 新 请 求 后 会 更 改 在 内 存 中 维护 的 管理 数据 ， 
通过 改造 的 Paxos 协议 通知 其 他 备份 服务 器 对 相应 的 数据 进行 更 新 操作 ,并 保证 在 多 副 
本 环境 下 的 数据 一 致 性 ; 当 多 数 备份 服务 器 确认 更 新 完成 后 , 主 服务 器 可 以 认为 本 次 更 
新 操作 正确 完成 。 其 他 所 有 备份 服务 器 只 是 同步 管理 数据 到 本 地 ,保持 数据 和 主 服务 器 
完全 一 致 。 通 信 协 议 如 图 3-4 所 示 。 
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图 3-4 Client 5j Chubby 的 通信 


KeepAlive 是 周期 性 发 送 的 一 种 消息 , 它 有 两 方面 的 功能 : 延长 租约 有 效 期 ,携带 事 
件 信息 告诉 客户 端 更 新 。 事 件 包括 文件 内 容 的 修改 、 子 节点 的 增删 改 ,.Master 出 错 等 。 
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在 正常 情况 下 ,租约 会 由 KeepAlive 一 直 不 断 延 长 。 如 果 Ci 在 未 用 完 租 约 期 时 发 现 还 
需 使 用 , 便 发 送 锁 请 求 给 Master. Master 给 它 Lease-Mi; Co 在 过 了 租约 期 后 ,发 送 锁 请 
求 给 Master, 可 是 未 收 到 Master 的 回答 。 其 实 此 刻 Master 已 经 挂 了 ,于 是 Chubby 进入 
宽 限 期 ,在 这 期 间 Chubby 要 选举 出 新 的 Master, Google 论文 里 对 于 这 段 时 期 有 一 个 更 
形象 的 名 字 一 一 Grace Period。 在 选举 出 Master 后 ,新 的 主 服 务 器 下 令 前 主 服 务 器 发 的 
Lease 失效 ,大 家 必须 申请 一 份 新 的 。 然 后 Cs 获得 了 Lease-Ms 。Cs 又 恢复 到 正常 情况 。 
在 图 3-4 中 4,5,6,7,8 是 通过 Paxos 算法 选举 Master 的 颜 拌 期 。 在 此 期 间 最 有 可 能 产 
生 问 题 ,Amazon 的 分 布 式 服务 就 曾 因 此 宕 机 ,导致 很 长 时 间 服 务 不 可 用 。 





3.3.2 ZooKeeper 


ZooKeeper 是 Yahoo! 公司 开发 的 一 套 开源 高 吞吐 分 布 式 协 同系 统 , 目 前 已 经 在 各 
种 NoSQL 数据 库 及 诸多 开源 软件 中 获得 广泛 使 用 。 分 布 式 应 用 中 的 各 节点 可 以 通过 
ZooKeeper 这 个 第 三 方 来 确保 双方 的 同步 ,比如 一 个 节点 是 发 送 , 另 一 个 节点 是 接收 ,但 
发 送 节点 需要 确认 接收 节点 成 功 收 到 这 个 消息 ,因而 就 可 以 通过 与 一 个 可 靠 的 第 三 方 交 
互 来 获取 接收 节点 的 消息 接收 状态 。 

ZooKeeper 也 是 由 多 台 同 构 服 务 器 构成 的 一 个 集群 ,共用 信息 存储 在 集群 系统 中 。 
共用 信息 采用 树 形 结 构 来 存储 ,用 户 可 以 将 其 看 作 一 个 文件 系统 ,只 是 这 些 文件 是 一 直 
存放 在 内 存 中 的 ,文件 存储 容量 受到 内 存 的 限制 。 

既然 ZooKeeper 可 以 被 看 作 一 个 文件 系统 ,那么 它 就 具有 文件 系统 相应 的 功能 ,只 
是 在 ZooKeeper 和 文件 系统 中 功能 的 叫 法 不 同 。ZooKeeper 提供 创建 节点 、 删 除 节 点 、 
创建 子 节点 、 获 取 节 点 内 容 等 功能 。 

ZooKeeper 服务 由 若干 台 服务 器 构成 ,每 台 服务 器 内 存 中 维护 相同 的 树 形 数据 结构 。 
其 中 的 一 台 通过 ZAB 原子 广播 协议 选举 作为 主 服务 器 ,其 他 的 作为 从 服务 器 。 客 户 端 
可 以 通过 TCP 协议 连接 任意 一 台 服 务 器 ,如 果 是 读 操作 请 求 , 任 意 一 个 服务 器 都 可 以 直 
接 响 应 请 求 ; 如 果 是 写 数 据 操作 请 求 , 则 只 能 由 主 服务 器 来 协调 更 新 操作 。Chubby 在 这 
一 点 上 与 ZooKeeper 不 同 ,所 有 的 读 / 写 操作 都 由 主 服务 器 完成 ,从 服务 器 只 是 用 于 提高 
整个 协调 系统 的 可 用 性 。 

在 带 来 高 吞吐 量 的 同时 ,ZooKeeper 的 这 种 做 法 也 带 来 了 潜在 的 问题 : 客户 端 可 能 
读 到 过 期 的 数据 。 因 为 即使 主 服 务 器 已 经 更 新 了 某 个 内 存 数 据 ,但 是 ZAB 协议 还 未 能 
将 其 广播 到 从 服务 器 。 为 了 解决 这 一 问题 ,在 ZooKeeper 的 接口 API 函数 中 提供 了 
Syne 操作 ,应 用 可 以 根据 需要 在 读数 据 前 调用 该 操作 ,其 含义 是 接收 到 Sync 命令 的 从 服 
务 器 从 主 服务 器 同步 状态 信息 ,保证 两 者 完全 一 致 。 
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3.3.3 阿里 云 女 娲 协同 系统 


女 娲 (Nuwa) 系 统 为 飞天 提供 高 可 用 的 协调 服务 (Coordination Service) ,是 构建 各 类 
分 布 式 应 用 的 核心 服务 , 它 的 作用 是 采用 类 似 文件 系统 的 树 形 命名 空间 来 让 分 布 式 进程 
互相 协同 工作 。 例 如 , 当 集 群 变更 导致 特定 的 服务 被 迫 改变 物理 运行 位 置 时 ,如 服务 器 
或 者 网 络 故 障 、 配 置 调整 或 者 扩容 时 ,借助 女 娲 系统 可 以 使 其 他 程序 快速 定位 到 该 服务 
新 的 接 入 点 ,从 而 保证 了 整个 平台 的 高 可 靠 性 和 高 可 用 性 。 

女 娲 系统 基于 类 Paxos 协议 ,由 多 个 女 娲 Server 以 类 似 文件 系统 的 树 形 结构 存储 数 
据 ,提供 高 可 用 ,高 并 发 用 户 请 求 的 处 理 能 力 。 

女 娲 系统 的 目录 表示 一 个 包含 文件 的 集合 。 与 UNIX 中 的 文件 路 径 一 样 , 女 娲 中 的 
路 径 是 以 “/” 分 割 的 , 根 目录 (Root entry) 的 名 字 是 “/”, 所 有 目录 的 名 字 都 是 以 /结尾 
的 。 与 UNIX 文件 路 径 的 不 同 之 处 在 于 : 女 娲 系统 中 的 所 有 文件 或 目录 都 必须 使 用 从 根 
目录 开始 的 绝对 路 径 。 由 于 女 娲 系统 的 设计 目的 是 提供 协调 服务 ,而 不 是 存储 大 量 数 
据 , 所 以 每 个 文件 的 内 容 (Value) 的 大 小 被 限制 在 IMB 以 内 。 在 女 娲 系统 中 ,每 个 文件 
或 目录 都 保存 有 创建 者 的 信息 。 一 旦 某 个 路 径 被 用 户 创建 ,其 他 用 户 就 可 以 访问 和 修改 
这 个 路 径 的 值 ( 即 文件 内 容 或 目录 包含 的 文件 名 ) 。 

女 娲 系统 支持 Publish/Subscribe 模式 ,其 中 一 个 发 布 者 .多 个 订阅 者 (One Publisher/ 
Many Subscriber) 的 模式 提供 了 基本 的 订阅 功能 ; 另外 ,还 可 用 通过 多 个 发 布 者 、 多 个 订 
阅 者 (Many Publisher/Many Subscriber) 的 模式 提供 分 布 式 选举 (Distributed Election) 
和 分 布 式 锁 的 功能 。 

另外 一 个 使 用 女 娲 系统 来 实现 负载 均衡 的 例子 : 提供 某 一 服务 的 多 个 节点 ,在 服务 
启动 的 时 候 在 女 娲 系统 的 同一 目录 下 创建 文件 ,例如 server] 创建 文件 nuwa: //cluster/ 
myservice/serverl.server2 在 同一 目录 下 创建 nuwa://cluster/myservice/server2。 当 
客户 端 使 用 远程 过 程 调用 时 首先 列举 女 娲 系统 服务 中 nuwa://cluster/myservice 目录 下 
的 文件 ,这 样 就 可 以 获得 server] 和 server2 ,客户 端 随 后 可 以 从 中 选择 一 个 节点 发 出 自己 
的 请 求 ,从 而 实现 负载 均衡 。 


3.3.4 ZooKeeper 在 HDFS 高 可 用 方案 中 的 使 用 


HDFS 由 3 个 模块 构成 ,分 别 包 括 Client, NameNode 和 DataNode。NameNode ffi 
责 管理 所 有 的 DataNode 节点 ,保存 block 和 DataNode 之 间 的 对 应 信息 ,Client 读 取 文 件 
和 写 人 文件 都 需要 NameNode 节点 的 参与 ,因此 NameNode 发 挥 着 至 关 重 要 的 作用 。 在 
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当前 设计 中 ,NameNode 是 单 节点 方式 ,存在 单 点 故障 问题 , 即 NameNode 节点 宕 机 之 后 
HDFS 无 法 再 对 外 提供 数据 存储 服务 ,需要 设计 一 种 HDFS NameNode 节点 的 高 可 用 方 
法 。 总 体 来 讲 , 维 护 HDFS 高 可 用 基于 以 下 两 个 目的 : 

(1) 在 出 现 NameNode 节点 故障 时 HDFS 仍然 可 以 对 外 提供 数据 的 读 取 和 写 入 


服务 。 
(2) HDFS 会 出 现 版 本 的 更 新 迭代 ,以 保证 HDFS 在 更 新 过 程 中 仍然 可 以 对 外 提供 
服务 。 


HDFS 为 了 实现 上 述 目的 ,采用 的 方式 是 再 提供 一 个 额外 的 NameNode 节点 ,以 此 
达到 HDFS 的 高 可 用 目的 。 在 使 用 过 程 中 部 署 两 个 NameNode 节点 ,一 个 NameNode 
节点 为 Active 节点 , 另 一 个 NameNode 节点 是 Standby 节点 。 在 正常 情况 下 ,Active 的 
NameNode 节点 服务 正常 的 请 求 ,一 旦 出 现 Active NameNode 节点 故障 , 则 Standby 
NameNode 节点 切换 变 成 Active 节点 ,然后 这 个 新 的 Active NameNode 继续 提供 
NameNode 的 功能 ,使 HDFS 可 以 继续 正常 工作 。 但 是 为 了 保证 上 述 过 程 正常 运行 , 需 
要 解决 以 下 问题 : 

(1) Standby 如 何 知 道 Active 节点 出 现 故障 无 法 正常 服务 ,需要 探测 系统 何 时 出 现 
故障 。 

(2) 当 出 现 Active NameNode 节点 故障 时 .多 个 Standby NameNode 节点 如 何 选择 
一 个 新 的 Active NameNode 节点 。 

一 种 解决 上 述 问题 的 HDFS 高 可 用 方法 是 采用 ZK Failover Controller 的 方法 , 具 
体 结构 如 图 3-5 所 示 。 
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图 3-5 基于 ZooKeeper 的 HDFS 高 可 用 方法 
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采用 ZK(ZooKeeper) 设 计 HDFS 高 可 用 方案 基于 以 下 几 点 : 

(1) ZooKeeper 提供 了 小 规模 的 任意 数据 信息 的 强 一 致 性 。 

(2) 可 以 在 ZooKeeper 集群 中 创建 一 个 临时 znode 节点 , 当 创 建 该 znode 节点 的 
Client 失效 时 ,该 临时 znode 节点 会 自动 删除 。 

(3) 能 够 监控 ZooKeeper 集群 中 的 一 个 znode 节点 的 状态 发 生 改变 ,并 被 异步 通知 。 

上 述 设 计 的 基于 ZK 的 HDFS 高 可 用 方法 由 ZKFC、 HealthMonitor、ActiveStandby- 
Elector 几 个 主要 部 分 组 成 。 

(1) HealthMonitor 是 一 个 线程 ,用 于 监控 本 地 NameNode 的 状态 信息 ,维持 一 个 状 
态 信息 的 视图 ,监控 采用 RPC 方式 。 当 状态 信息 发 生 改 变 时 ,通过 callback 接口 方式 发 
送 消息 给 ZKFC。 

(2) ActiveStandbyElector 主要 用 于 和 ZooKeeper 进行 协调 ,ZKFC 与 它 通 信 主 要 由 
两 个 函数 调用 ,分 别 是 joinElection 和 quitElection. 

(3) ZKFailoverController 订阅 来 自 ActiveStandbyElector 和 HealthMonitor 的 消 
息 ,同时 管理 NameNode 的 状态 。 

整体 运行 过 程 如 下 : 启动 的 时 候 初 始 化 HealthMonitor 去 监控 本 地 NameNode 节 
点 ,同时 用 ZooKeeper 信息 来 初始 化 ActiveStandbyElector, 不 立即 把 该 NameNode 节点 
加 入 选举 。 同 时 , 随 着 ActiveStandbyElector 和 HealthMonitor 状态 的 改变 ,ZKFC 做 出 
对 应 的 响应 。 





3.4 习题 


- 简 述 数据 编码 传输 的 好 处 。 

. 简要 介绍 Snappy 压缩 库 , 包 括 功能 和 数据 格式 。 

. 简要 介绍 Chubby 的 工作 原理 。 

- 简 述 ZooKeeper 在 HDFS 高 可 用 方案 中 发 挥 作 用 的 理由 。 


e wn = 
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大 数据 存储 


随 着 结构 化 数据 量 和 非 结构 化 数据 量 的 不 断 增 长 ,以 及 分 析 数 据 来 源 的 多 样 化 ,之 
前 的 存储 系统 设计 已 无 法 满足 大 数据 应 用 的 需求 。 对 于 大 数据 的 存储 ,存在 以 下 几 个 不 
容 忽 视 的 问题 : 


1. 容量 


大 数据 时 代 存 在 的 第 一 个 问题 就 是 “大 容量 *。“ 大 容量 "通常 是 指 可 达 PB 级 的 数据 
规模 ,因此 海量 数据 存储 系统 的 扩展 能 力也 要 得 到 相应 等 级 的 提升 ,同时 其 扩展 还 必须 
渐变 ,为 此 ,通过 增加 磁盘 柜 或 模块 来 增加 存储 容量 ,这 样 可 以 不 需要 停机 。 


2. 延迟 


大 数据 应 用 不 可 避免 地 存在 实时 性 的 问题 ,大 数据 应 用 环境 通常 需要 较 高 的 TOPS 
性 能 。 为 了 迎接 这 些 挑战 ,小 到 简单 的 在 服务 器 内 用 作 高 速 缓存 的 产品 ,大 到 全 固态 介 
质 可 扩展 存储 系统 ,各 种 模式 的 固态 存储 设备 应 运 而 生 。 


3. 安全 


大 数据 的 分 析 往 往 需 要 对 多 种 数据 混合 访问 ,这 就 催生 出 了 一 些 新 的 .需要 重新 考 
虑 的 安全 性 问题 。 


4. 成 本 
成 本 控制 是 企业 的 关键 问题 之 一 ,只 有 让 每 一 台 设 备 都 实现 更 高 的 “效率 ”, 才 能 控 
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制 住 成 本 。 目 前 进入 存储 市 场 的 重复 数据 删除 .多 数据 类 型 处 理 等 技术 都 可 为 大 数据 存 
储 带 来 更 大 的 价值 ,提升 存储 效率 。 


5. 灵活 性 


通常 ,大 数据 存储 系统 的 基础 设施 规模 都 很 大 ,为 了 保证 存储 系统 的 灵活 性 ,使 其 能 
够 随时 扩容 及 扩展 ,必须 经 过 详细 的 设计 。 

由 于 传统 关系 型 数据 库 的 局 限 性 ,传统 的 数据 库 已 经 不 能 很 好 地 解决 这 些 问 题 。 在 
这 种 情况 下 ,一 些 主要 针对 非 结构 化 数据 的 管理 系统 开始 出 现 。 这 些 系 统 为 了 保障 系统 
的 可 用 性 和 并 发 性 ,通常 采用 多 副本 的 方式 进行 数据 存储 。 为 了 在 保证 低 延 时 的 用 户 响 
应 时 间 的 同时 维持 副本 之 间 的 一 致 状态 ,采用 较 弱 的 一 致 性 模型 ,而 且 这 些 系统 也 普遍 
提供 了 良好 的 负载 平衡 策略 和 容错 机 制 。 


4.1 大 数据 存储 技术 的 发 展 


在 20 世纪 50 年 代 中 期 以 前 ,计算 机 主要 用 于 科学 计算 ,这 个 时 候 存 储 的 数据 规模 
不 大 ,数据 管理 采用 的 是 人 工 管理 的 方式 ; 在 20 世纪 50 年 代 后 期 至 60 年 代 后 期 ,为 了 
更 加 方便 管理 和 操作 数据 ,出 现 了 文件 系统 ; 从 20 世纪 60 年 代 后 期 开始 ,出 现 了 大 量 的 
结构 化 数据 ,数据 库 技术 蓬勃 发 展 ,开始 出 现 了 各 种 数据 库 ,其 中 以 关系 型 数据 库 备 受 人 
们 喜爱 。 

在 科学 研究 过 程 中 ,为 了 存储 大 量 的 科学 计算 ,有 Beowulf 集群 的 并 行文 件 系统 
PVFS 做 数据 存储 ,在 超级 计算 机 上 有 Lustre 并 行文 件 系统 存储 大 量 数据 ,IBM 公司 在 
分 布 式 文件 系统 领域 研制 了 GPFS 分 布 式 文件 系统 ,这 些 都 是 针对 高 端 计算 采用 的 分 布 
式 存储 系统 。 

进入 到 21 世纪 以 后 ,互联 网 技术 不 断 发 展 , 其 中 以 互联 网 为 代表 企业 产生 大 量 的 数 
据 ,为 了 解决 这 些 存储 问题 ,互联 网 公司 针对 自己 的 业务 需求 和 基于 成 本 考虑 开始 设计 
自己 的 存储 系统 ,典型 代表 是 Google 公司 于 2003 年 发 表 的 论文 Google File System. J£ 
建立 在 廉价 的 机 器 上 .提供 了 高 可 靠 、 容 错 的 功能 。 为 了 适应 Google 的 业务 发 展 ， 
Google 推出 了 BigTable 这 样 一 种 NoSQL 非 关系 型 数据 库 系统 ,用 于 存储 海量 网 页 数 
据 , 数 据 存 储 格式 为 行 、 列 簇 、 列 、 值 的 方式 ; 与 此 同时 亚马逊 公司 公布 了 他 们 开发 的 另外 
一 种 NoSQL 系统 一 一 DynamoDB。 后 续 大 量 的 NoSQL 系统 不 断 涌现 ,为 了 满足 互联 网 
中 的 大 规模 网 络 数 据 的 存储 需求 ,其 中 Facebook 结合 BigTable 和 DynamoDB 的 优点 ， 
推出 了 Cassandra 非 关 系 型 数据 库 系 统 。 
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开源 社区 对 于 大 数据 存储 技术 的 发 展 更 是 贡献 重大 ,其 中 包括 底层 的 操作 系统 层面 
的 存储 技术 ,比如 文件 系统 btrfs 和 xfs 等 。 为 了 适应 当前 大 数据 技术 的 发 展 ,支持 高 并 
发 .多 核 以 及 动态 扩展 等 ,Linux 开源 社区 针对 技术 发 展 需求 开发 下 一 代 操 作 系 统 的 文件 
系统 btrfs, 该 文件 系统 在 不 断 完 善 ; 同时 也 包括 分 布 式 系统 存储 技术 , 功 不 可 没 的 是 
apache 开源 社区 ,其 贡献 和 发 展 了 HDFS, HBase 等 大 数据 存储 系统 。 

总 体 来 讲 , 结 合 公司 的 业务 需求 以 及 开源 社区 的 蓬勃 发 展 , 当 前 大 数据 存储 系统 不 
断 涌现 。 


4.2 海量 数据 存储 的 关键 技术 


大 数据 处 理 面 临 的 首要 问题 是 如 何 有 效 地 存储 规模 巨大 的 数据 。 无论 是 从 容量 还 
是 从 数据 传输 速度 ,依靠 集中 式 的 物理 服务 器 来 保存 数据 是 不 现实 的 ,即使 存在 这 么 一 
台 设 备 可 以 存储 所 有 的 信息 ,用 户 在 一 台 服 务 器 上 进行 数据 的 索引 查询 也 会 使 处 理 器 变 
得 不 堪 重 负 , 因 此 分 布 式 成 为 这 种 情况 的 很 好 的 解决 方案 。 要 实现 大 数据 的 存储 ,需要 
使 用 几 十 台 、 几 百 台 甚至 更 多 的 分 布 式 服务 器 节点 。 为 保证 高 可 用 、 高 可 靠 和 经 济 性 , 海 
量 数据 多 采用 分 布 式 存储 的 方式 来 存储 数据 ,采用 宛 余 存储 的 方式 来 保证 存储 数据 的 可 
靠 性 , 即 为 同一 份 数据 存储 多 个 副本 。 

数据 分 片 与 数据 复制 的 关系 如 图 4-1 所 示 。 
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图 4-1 数据 分 片 与 数据 复制 
4.2.1 数据 分 片 与 路 由 


传统 数据 库 采 用 纵向 扩展 方式 ,通过 改善 单机 硬件 资源 配置 来 解决 问题 ; 主流 大 数 
据 存储 与 计算 系统 采用 横向 扩展 方式 ,支持 系统 可 扩展 性 , 即 通 过 增加 机 器 来 获得 水 平 
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扩展 能 力 。 

对 于 海量 数据 ,将 数据 进行 切 分 并 分 配 到 各 个 机 器 中 的 过 程 叫 分 片 (shard/ 
partition), 即 将 不 同 数据 存放 在 不 同 节点 。 数 据 分 片 后 ,找到 某 条 记录 的 存储 位 置 称 为 
数据 路 由 (routing)。 数 据 分 片 与 路 由 的 抽象 模型 如 图 4-2 所 示 。 
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图 4-2 数据 分 片 与 路 由 的 抽象 模型 
1. 数据 分 片 


- 般 来 说 ,数据 库 的 繁忙 体现 在 不 同 用 户 需 要 访问 数据 集中 的 不 同 部 分 。 在 这 种 情 
况 下 ,把 数据 的 各 个 部 分 存放 在 不 同 的 服务 器 /节点 中 ,每 个 服务 器 /节点 负责 自身 数据 
的 读 取 与 写 人 操作 ,以 此 实现 横向 扩展 ,这 种 技术 称 为 分 片 。 

用 户 必 须 考虑 以 下 两 点 。 

(1) 如 何 存放 数据 。 可 以 实现 用 户 从 一 个 逻辑 节点 (实际 多 个 物理 节点 的 方式 ) 获 取 
数据 ,并 且 不 用 担心 数据 的 存放 位 置 。 面 向 聚合 的 数据 库 可 以 很 容易 地 解决 这 个 问题 。 聚 
合 结构 是 指 把 经 常 需要 同时 访问 的 数据 存放 在 一 起 ,因此 可 以 把 聚合 作为 分 布 数据 的 单元 。 

(2) 如 何 保证 负载 平衡 。 即 如 何 把 聚合 数据 均匀 地 分 布 在 各 个 节点 中 ,让 它们 需要 
处 理 的 负载 量 相等 。 负 载 分 布 情 况 可 能 会 随 着 时 间 变 化 ,因此 需要 一 些 领域 特定 的 规 
则 。 比 如 有 的 需要 按 字典 顺序 ,有 的 需要 按 逆 域 名 序列 等 。 

下 面 讲述 一 下 分 片 类 型 。 

D 哈 希 分 片 

采用 哈 希 函数 建立 Key-Partition 映射 ,其 只 支持 点 查询 ,不 支持 范围 查询 ,主要 有 
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Round Robin, 虚拟 桶 、 一 致 性 哈 希 3 种 算法 。 
(1) Round Robin。 其 俗称 哈 希 取 模 算法 ,这 是 实际 中 最 常用 的 数据 分 片 方法 。 若 
有 A 台 机 器 ,分 片 算法 如 下 : 
H(key) =hash(key) mod k 
对 物理 机 进行 编号 (0~A 一 1) ,根据 以 上 哈 希 函数 ,对 于 以 key 为 主键 的 某 个 记录 ， 
H(key) 的 数值 即 是 物理 机 在 集群 中 的 放置 位 置 (编号 ) 。 


优点 : 实现 简单 。 
缺点 : 缺乏 灵活 性 , 若 有 新 机 器 加 入 ,之 前 所 有 数据 与 机 器 之 间 的 映射 关系 都 被 打 
乱 ,需要 重新 计算 。 


(2) 虚拟 桶 。 在 Round Robin 的 基础 上 ,虚拟 桶 算法 加 入 一 个 “虚拟 桶 层 ”, 形 成 两 级 
映射 。 所 有 记录 首先 通过 哈 希 函数 映射 到 对 应 的 虚拟 桶 (多 对 一 映射 );。 虚 拟 桶 和 物理 
机 之 间 再 有 一 层 映射 (同样 是 多 对 一 )。 一 般 通 过 查找 表 来 获知 虚拟 桶 与 物理 机 之 间 的 
映射 关系 。 具 体 以 Membase 为 例 , 如 图 4-3 所 示 。 
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图 4-3 Membase 虚拟 桶 的 运行 


Membase 在 待 存 储 记 录 的 物理 机 之 间 引 入 了 虚拟 桶 层 , 所 有 记录 首先 通过 哈 希 函数 
映射 到 对 应 的 虚拟 桶 ,记录 和 虚拟 桶 是 多 对 一 的 关系 , 即 一 个 虚拟 桶 包含 多 条 记录 信息 ; 
第 二 层 映射 是 虚拟 桶 和 物理 机 之 间 的 映射 关系 ,同样 也 是 多 对 一 映射 ,一 个 物理 机 可 以 
容纳 多 个 虚拟 桶 ,具体 是 通过 查找 表 来 实现 的 , 即 Membase 通过 内 存 表 管 理 这 些 映 射 
关系 。 

对 照 抽象 模型 可 以 看 出 ,Membase 的 虚拟 桶 层 对 应 数据 分 片 层 ,一 个 虚拟 桶 就 是 一 
个 数据 分 片 。Key-Partition 映射 采用 映射 函数 。 
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与 Round Robin #4 IE. Membase 引入 了 虚拟 桶 层 ,这 样 将 原先 由 记录 直接 到 物理 机 
的 单 层 映射 解 耦 成 两 级 映射 。 当 新 加 入 机 器 时 ,将 某 些 虚拟 桶 从 原先 分 配 的 机 器 重新 分 
配 各 机 器 ,只 需要 修改 partition-machine 映射 表 中 受 影 响 的 个 别 条 目 就 能 实现 扩展 。 

优点 : 增加 了 系统 扩展 的 灵活 性 。 

缺点 : 实现 相对 麻烦 。 

G) 一 致 性 喻 希 。 一 致 性 喻 希 是 分 布 式 喻 希 表 的 一 种 实现 算法 ,将 喻 希 数 值 空间 按 
照 大 小 组 成 一 个 首尾 相 接 的 环 状 序列 ,对 于 每 台 机 器 ,可 以 根据 IP 和 端口 号 经 过 哈 希 函 
数 映 射 到 哈 希 数值 空间 内 。 通 过 有 向 环 顺序 查找 或 路 由 表 来 查找 。 对 于 一 致 性 哈 希 可 
能 造成 的 各 个 节点 负载 不 均衡 的 情况 ,可 以 采用 虚拟 节点 的 方式 来 解决 。 一 个 物理 机 节 
点 虚拟 成 若干 虚拟 节点 ,映射 到 环 状 结构 的 不 同位 置 。 图 4-4 为 哈 希 空间 长 度 为 5 的 二 
进 制 数值 (mx 一 5) 的 一 致 性 哈 希 算法 示意 图 。 








图 4-4 一 致 性 哈 希 算法 


在 哈 希 空间 可 容纳 长 度 为 32 的 二 进 制 数 值 (m 二 32) 空 间 里 ,每 个 机 器 根据 TP 地 址 
或 者 端口 号 经 过 哈 希 函数 映射 到 环 内 (图 中 6 个 大 圆 代表 机 器 ,后 面 的 数字 代表 哈 希 值 ， 
即 根据 IP 地 址 或 者 端口 号 经 过 哈 希 函数 计算 得 出 的 在 环 状 空间 内 的 具体 位 置 ) ,而 这 台 
机 器 负责 存储 落 在 一 段 有 序 哈 希 空间 内 的 数据 ,比如 Niz 节 点 存储 哈 希 值 在 9 一 12 范围 
内 的 数据 ,而 Ns 负责 存储 哈 希 值 落 在 30—31 和 0 一 5 范围 内 的 数据 。 同 时 ,每 台 机 器 还 
记录 着 自己 的 前 驱 和 后 继 节点 ,成 为 一 个 真正 意义 上 的 有 向 环 。 

2) 范围 分 片 

范围 分 片 首先 将 所 有 记录 的 主键 进行 排序 ,然后 在 排 好 序 的 主键 空间 里 将 记录 划分 
成 数据 分 片 ,每 个 数据 分 片 存储 有 序 的 主键 空间 片段 内 的 所 有 记录 。 

支持 范围 查询 即 给 定 记 录 主 键 的 范围 而 一 次 读 取 多 条 记录 ,范围 分 片 既 支 持 点 查 
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询 , 也 支持 范围 查询 。 





分 片 可 以 极 大 地 提高 读 取 性 能 ， 


但 对 于 频繁 写 的 应 用 帮助 不 大 。 同 时 ,分 片 也 可 减 


少 故 障 范围 ,只 有 访问 故障 节点 的 用 户 才 会 受 影 响 , 访 问 其 他 节点 的 用 户 不 会 受到 故障 


节点 的 影响 。 


2. 路 由 


那么 如 何 根据 收 到 的 请 求 找到 储存 的 值 呢 ? 下 面 介绍 3 种 方法 。 


1) 直接 查找 法 











如 果 哈 希 值 落 在 自身 管辖 的 范 


内 , 则 在 此 节点 上 查询 ,和 否则 继续 往 后 找 ,一 直 找 到 


节点 Nr 是 大 于 等 于 待 查 节点 值 的 最 小 编号 ,这 样 一 圈 下 来 肯定 能 找到 结果 。 





以 图 4-4 为 例 , 如 有 一 个 请 求 向 
和 Ns 之 间 , 所 以 该 请 求 的 值 存储 在 


则 在 此 节点 上 查询 ,否则 继续 往 后 找 


编号 。 
2) 路 由 表 法 


Ns 查询 的 主键 为 H(key) 二 6, 因 为 此 哈 希 值 落 在 Ns 
Ns 的 节点 上 , 即 如 果 哈 希 值 落 在 自身 管辖 的 范 肝 内 ， 
,一 直 找 到 节点 N; ,zx 是 大 于 等 于 待 查 节点 值 的 最 小 


直接 查找 法 缺乏 效率 ,为 了 加 快 查找 速度 ,可 以 在 每 个 机 器 节点 配置 路 由 表 , 路 由 表 
存储 每 个 节点 到 每 个 除 自身 节点 的 距离 ,具体 示例 见 表 4-1。 


表 4-1 机 器 节点 的 路 由 表 


距离 1 





机 器 节点 Ny 


EK 4-1 中 ,第 3 项 代表 与 Ni 的 节点 距离 为 4 的 哈 希 值 (12 十 4 二 16) 落 在 Nu 节点 
身上 , 同 理 第 5 项 代表 与 Nis 的 距离 为 16 的 哈 希 值 落 在 Nss 身 上 ,这样 找 起 来 非常 快速 。 


3) 一 致 性 哈 希 路 由 算法 


同样 如 图 4-4, 如 请 求 节点 Ns 查询 ,Ns 的 路 由 表 如 表 4-2 所 示 。 


表 4-2 Ns 节点 的 路 由 表 





机 器 节点 Ns 


Ns Niz Ny N> 


假如 请 求 的 主键 哈 希 值 为 HCkey) 一 24, 首 先 查 询 是 否 在 Ns 的 后 继 节点 上 ,发 现 后 
继 节点 Ns 小 于 主键 哈 希 值 , 则 根据 Ns 的 路 由 表 查 询 ,发 现 大 于 24 的 最 小 节点 为 Na CH 
有 29, 因 为 5+16=21<24) ,因此 哈 希 值 落 在 Noo E 
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4.2.2 数据 复制 与 一 致 性 


将 同一 份 数据 放置 到 多 个 节点 ( 主 从 master-slave 方式 、 对 等 式 peer-to-peer) 的 过 程 
称 为 复制 ,数据 复制 可 以 保证 数据 的 高 可 用 性 。 


1. 主 从 复制 


master-slave 模式 ,其 中 有 一 个 master 节点 ,存放 重要 数据 ,通常 负责 数据 的 更 新 ， 
其 余 节 点 都 叫 slave 节点 ,复制 操作 就 是 让 slave 节点 的 数据 与 master 节点 的 数据 
同步 。 

优点 : 

CD 在 频繁 读 取 的 情况 下 有 助 于 提升 数据 的 访问 ( 读 取 slave 节点 分 担 压力 ) ,还 可 以 
增加 多 个 slave 节点 进行 水 平 扩展 ,同时 处 理 更 多 的 读 取 请 求 。 

(2) 可 以 增强 读 取 操作 的 故障 恢复 能 力 。 一 个 slave 出 故障 ,还 有 其 他 slave 保证 访 
问 的 正常 进行 。 

缺点 : 数据 一 致 性 ,如 果 数 据 更 新 没有 通知 到 全 部 的 slave 节点 , 则 会 导致 数据 不 
一 致 。 

2. 对 等 复制 


主 从 复制 有 助 于 增强 读 取 操 作 的 故障 恢复 能 力 , 对 写 操作 频繁 的 应 用 没有 帮助 。 它 
所 提供 的 故障 恢复 能 力 只 有 在 slave 节点 出 错时 才能 体现 出 来 ,master 仍然 是 系统 的 瓶 
颈 。 对 等 复制 是 指 两 个 节点 相互 为 各 自 的 副本 ,没有 主 从 的 概念 。 

优点 : 丢失 其 中 一 个 节点 不 影响 整个 数据 库 的 访问 。 

缺点 : 因为 同时 接受 写 人 请 求 ,容易 出 现 数 据 不 一 致 问 题 。 在 实际 使 用 中 ,通常 只 有 
一 个 节点 接受 写 人 请 求 , 另 一 个 master 作为 候补 ,只 有 当 对 等 的 master 出 故障 时 才 会 自 
动 承担 写 操作 请 求 。 


3. 数据 一 致 性 


有 一 个 存储 系统 ,其 底层 是 一 个 复杂 的 高 可 用 、 高 可 靠 的 分 布 式 存储 系统 。 一 致 性 
模型 的 定义 如 下 : 

CL) 强 一 致 。 按 照 某 一 顺序 串 行 执行 存储 对 象 的 读 / 写 操作 ,更 新 存储 对 象 之 后 ,后 
续 访 问 总 是 读 到 最 新 值 。 假 如 进程 A 先 更 新 了 存储 对 象 ,存储 系统 保证 后 续 A,B,C 的 
读 取 操 作 都 将 返回 最 新 值 。 
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(2) 弱 一 致 性 。 更 新 存储 对 象 之 后 ,后续 访问 可 能 读 不 到 最 新 值 。 假 如 进程 A 先 更 
新 了 存储 对 象 ,存储 系统 不 能 保证 后 续 A,B,C 的 读 取 操 作 能 读 取 到 最 新 值 。 从 更 新 成 
功 这 一 刻 开 始 算 起 ,到 所 有 访问 者 都 能 读 到 修改 后 的 对 象 为 止 ,这 段 时 间 称 为 “不 一 致 性 
窗口 ”, 在 该 窗口 内 访问 存储 时 无 法 保证 一 致 性 。 

(3) 最 终 一 致 性 。 最 终 一 致 性 是 弱 一 致 性 的 特例 ,存储 系统 保证 所 有 访问 将 最 终 读 
到 对 象 的 最 新 值 。 例 如 ,进程 A 写 一 个 存储 对 象 ,如 果 对 象 上 后 续 没 有 更 新 操作 ,那么 最 
A A.B.C 的 读 取 操作 都 会 读 取 到 A 写 人 的 值 。“ 不 一 致 性 窗口 ”的 大 小 依赖 于 交互 延 
迟 、 系 统 的 负载 ,以 及 副本 个 数 等 。 


4.3 重要 数据 结构 和 算法 


分 布 式 存储 系统 中 存储 大 量 的 数据 ,同时 需要 支持 大 量 的 上 层 读 / 写 操作 ,为 了 实现 
高 吞吐 量 ,设计 和 实现 一 个 良好 的 数据 结构 能 起 到 相当 大 的 作用 。 典 型 的 如 LSM 树 结 
构 , 为 NoSQL 系统 对 外 提供 高 吞吐 量 提 供 了 更 大 的 可 能 。 在 大 规模 分 布 式 系统 中 需要 
查找 到 具体 的 数据 ,设计 一 个 良好 的 数据 结构 ,以 支持 快速 的 数据 查找 ,如 MemC3 中 的 
Cuckoo Hash. Jy MemC3 在 读 多 写 少 负载 情况 下 极 大 地 减少 了 访问 延迟 ; HBase 中 的 
Bloom Filter 结构 ,用 于 在 海量 数据 中 快速 确定 数据 是 否 存在 ,减少 了 大 量 的 数据 访问 操 
作 , 从 而 提高 了 总 体 的 数据 访问 速度 。 

因此 ,一 个 良好 的 数据 结构 和 算法 对 于 分 布 式 系统 来 说 有 着 很 大 的 作用 。 下 面 讲述 
当前 大 数据 存储 领域 中 一 些 比较 重要 的 数据 结构 。 


4.3.1 Bloom Filter 


Bloom Filter 用 于 在 海量 数据 中 快速 查找 给 定 的 数据 是 否 在 某 个 集合 内 。 

如 果 想 判断 一 个 元 素 是 不 是 在 一 个 集合 内 ,一 般 想到 的 是 将 集合 中 的 所 有 元 素 保存 
起 来 ,然后 通过 比较 确定 ,链表 、 树 、 散 列表 (又 叫 哈 希 表 , Hash Table) 等 数据 结构 都 是 这 
种 思路 。 但 是 随 着 集合 中 元 素 的 增加 ,需要 的 存储 空间 越 来 越 大 ,同时 检索 速度 也 越 来 
越 慢 ,上 述 3 种 结构 的 检索 时 间 复 杂 度 分 别 为 OC) .OC(logn) .O(n/k)。 

Bloom Filter 的 原理 是 当 一 个 元 素 被 加 入 集合 时 ,通过 个 散 列 函数 将 这 个 元 素 映 
射 成 一 个 位 数组 中 的 个 点 ,把 它们 置 为 1。 检 索 时 ,用 户 只 要 看 看 这 些 点 是 不 是 都 是 1 
就 (大 约 ) 知 道 集 合 中 有 没有 它 了 : 如 果 这 些 点 有 任何 一 个 0, 则 被 检 元 素 一 定 不 在 ; 如 果 
都 是 1, 则 被 检 元 素 很 可 能 在 。 这 就 是 Bloom Filter 的 基本 思想 。 
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Bloom Filter 的 高 效 是 有 一 定 代价 的 : 在 判断 一 个 元 素 是 否 属于 某 个 集合 时 ,有 可 
能 会 把 不 属于 这 个 集合 的 元 素 误 认为 属于 这 个 集合 。 因 此 ,Bloom Filter 不 适合 那些 " 零 
错误 ”的 应 用 场合 。 在 能 容忍 低 错误 率 的 应 用 场合 下 ,Bloom Filter 通过 极 少 的 错误 换取 
了 存储 空间 的 极 大 节省 。 

下 面具 体 来 看 Bloom Filter 是 如 何 用 位 数组 表示 集合 的 。 初 始 状态 时 如 图 4-5 所 
示 ,Bloom Filter 是 一 个 包含 位 的 位 数组 ,每 一 位 都 置 为 0。 


06/|0|0/0|0/|0/|0/|0/|0/|0]0]|O 


图 4-5 Bloom Filter 初始 位 数组 





为 了 表达 S 二 {zx1， zs，… ,Xs) 这 样 一 个 n 个 元 素 的 集合 ,Bloom Filter 使 用 & 个 相互 
独立 的 哈 希 函数 (Hash Function) ,它们 分 别 将 集合 中 的 每 个 元 素 映 射 到 {1,…,m} 的 范 
Hic, ERE TOR zx, 第 i 个 哈 希 函数 映射 的 位 置 hi(z) 会 被 置 为 1(1 二 ik)。 注 
意 ,如 果 一 个 位 置 多 次 被 置 为 1, 那么 只 有 第 一 次 会 起 作用 ,后 面 几 次 将 没有 任何 效果 。 
在 图 4-6 中 ,k= 二 3, 且 有 两 个 哈 希 函数 选中 同一 个 位 置 ( 从 左边 数 第 5 位 , 即 第 2 个 
“]” 处 )。 


x x 


图 4-6 Bloom Filter 哈 希 函数 
在 判断 y 是 否 属于 这 个 集合 时 ,对 y 应 用 次 哈 希 函数 ,如 果 所 有 hi(y) 的 位 置 都 是 
1O Si ,那么 就 认为 > 是 集合 中 的 元 素 , 否 则 就 认为 y 不 是 集合 中 的 元 素 。 图 4-7 中 
的 yi 就 不 是 集合 中 的 元 素 (因为 y 有 一 处 指向 了 0 位 )。y: 或 者 属于 这 个 集合 ,或 者 不 
属于 这 个 集合 ,如 图 4-7 所 示 。 


n MA. sos 


ofifofof fo B oso |o 


图 4-7 Bloom Filter 查找 





这 里 举 一 个 例子 。 有 A.B 两 个 文件 ,各 存放 50 亿 条 URL, 每 条 URL 占用 64 字 节 ， 
内 存 限制 是 4GB, 试 找 出 AB 文件 共同 的 URL。 如 果 是 3 个 乃至 个 文件 呢 ? 

根据 这 个 问题 来 计算 一 下 内 存 的 占用 ,4GB 二 2”, 大 概 是 43 亿 , 乘 以 8 大 概 是 340 
亿 bit.n=50 亿 , 如 果 按 出 错 率 0. 01 算 大 概 需要 650 亿 bit。 现 在 可 用 的 是 340 亿 , 相 差 
并 不 多 ,这 样 可 能 会 使 出 错 率 上 升 一 些 。 另 外 ,如 果 这 些 URL 和 IP 是 一 一 对 应 的 ,就 可 
以 转换 成 ip. 这 样 就 大 大 简单 了 。 
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4.3.2 LSM Tree 


存储 引擎 和 B 树 存储 引擎 一 样 ,同样 支持 增 、 删 \ 读 、 改 、 顺 序 扫描 操作 ,而 且 可 通过 
批量 存储 技术 规避 磁盘 随机 写 人 问题 。 但 是 LSM 树 和 B 十 树 相 比 ,LSM 树 牺牲 了 部 分 
读 性 能 ,用 来 大 幅度 提高 写 性 能 。 

LSM 树 的 原理 是 把 一 棵 大 树 拆 分 成 棵 小 树 , 它 首先 写 入 内 存 中 , 随 着 小 树 越 来 越 
大 ,内 存 中 的 小 树 会 flush 到 磁盘 中 ,磁盘 中 的 树 定期 可 以 做 merge 操作 ,合并 成 一 棵 大 
树 ,以 优化 读 性 能 。 

对 于 最 简单 的 二 层 LSM 树 而 言 ,内 存 中 的 数据 和 磁盘 中 的 数据 做 merge 操作 如 
图 4-8 所 示 。 


C, tree Co tree 





Disk Memory 





图 4-8 LSM 树 


之 前 存在 于 磁盘 的 叶子 节点 被 合并 后 , 旧 的 数据 并 不 会 被 删除 ,这 些 数据 会 复制 一 
份 和 内 存 中 的 数据 一 起 顺序 写 到 磁盘 。 这 样 操作 会 有 一 些 空间 的 浪费 ,但 是 LSM 树 提 
供 了 一 些 机 制 来 回收 这 些 空间 。 

磁盘 中 的 树 的 非 叶 子 节点 数据 也 被 缓存 在 内 存 中 。 

数据 查找 会 首先 查找 内 存 中 的 树 ,如 果 没 有 查 到 结果 ,会 转 而 查找 磁盘 中 的 树 。 

为 什么 LSM Tree 的 插入 数据 的 速度 比较 快 呢 ? 

CL) 插入 操作 首先 会 作用 于 内 存 , 由 于 内 存 中 的 树 不 会 很 大 ,因此 速度 快 。 

(2) 合并 操作 会 顺序 写 人 一 个 或 多 个 磁盘 页 , 比 随机 写 入 快 得 多 。 
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4.3.3 Merkle Tree 


Merkle Tree 是 由 计算 机 科学 家 Ralph Merkle 提出 的 ,并 以 他 本 人 的 名 字 来 命名 。 
本 书 将 从 数据 "完整 性 校 验 ”( 检 查 数 据 是 否 有 损坏 ) 的 角度 介绍 Merkle Tree, 


1. 哈 希 (Hash) 


要 实现 完整 性 校 验 , 最 简单 的 方法 就 是 对 要 校 验 的 整个 数据 文件 做 哈 希 运算 ,将 得 
到 的 哈 希 值 发 布 在 网 上 , 当 把 数据 下 载 后 再 次 运算 一 下 哈 希 值 , 如 果 运 算 结果 相等 ,就 表 
示 下 载 过 程 中 文件 没有 任何 损坏 。 因 为 哈 希 的 最 大 特点 是 ,如 果 输 入 数据 稍微 变 了 一 
点 ,那么 经 过 哈 希 运算 ,得 到 的 哈 希 值 将 会 变 得 完全 不 一 样 。 构 成 的 哈 希 拓扑 结构 如 
图 4-9 所 示 。 





下 载 - 上 传 下 载 


下 载 


LY 














图 4-9 哈 希 拓扑 
如 果 从 一 个 稳定 的 服务 器 上 进行 下 载 .那么 采用 单个 哈 希 进行 校 验 的 形式 是 可 以 接 


受 的 。 
2， 哈 希 列表 (Hash List) 


但 在 点 对 点 网 络 中 进行 数据 传输 时 ,如 图 4-10 Bros ,我 们 会 同时 从 多 个 机 器 上 下 载 
数据 ,而 其 中 很 多 机 器 可 以 认为 是 不 稳定 或 者 是 不 可 信和 的 ,这 时 需要 有 更 加 巧妙 的 做 法 。 
在 实际 中 ,点 对 点 网 络 在 传输 数据 的 时 候 都 是 把 比较 大 的 一 个 文件 切 成 小 的 数据 块 。 这 
样 的 好 处 是 如 果 有 一 小 块 数据 在 传输 过 程 中 损坏 了 ,只 要 重新 下 载 这 一 个 数据 块 ,不 用 
重新 下 载 整个 文件 。 当 然 ,这 要 求 每 个 数据 块 都 拥有 自己 的 哈 希 值 。 在 下 载 BT 的 时 候 ， 
在 下 载 真 正 的 数据 之 前 用 户 会 先 下 载 一 个 哈 希 列表 。 这 时 有 一 个 问题 出 现 了 ,如 此 多 的 
哈 希 ,我 们 怎么 保证 它们 本 身 都 是 正确 的 呢 ? 
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图 4-10 RRIK 
答案 是 我 们 需要 一 个 根 哈 希 ,如 图 4-11 所 示 , 把 每 个 小 块 的 喻 希 值 拼 到 一 起 ,然后 对 
这 个 长 长 的 字符 串 再 做 一 次 喻 希 运 算 , 最 终 的 结果 就 是 哈 希 列表 的 根 喻 希 。 如 果 我 们 能 
够 保证 从 一 个 绝对 可 信 的 网 站 拿 到 一 个 正确 的 根 喻 希 , 就 可 以 用 它 来 校 验 喻 希 列表 中 的 
每 一 个 哈 希 是 否 都 是 正确 的 ,进而 可 以 保证 下 载 的 每 一 个 数据 块 的 正确 性 。 


Root Hash=hash(hash(B1)+hash(B2)+hash(B3)+hash(B4)) 









Root Hash 





hash(B4) 


hash(B2) hash(B3) 
( Block | J (_ Block 2 ) ( Block 3 ( Block4 ) 


图 4-11 哈 希 流程 














3. Merkle Tree 结构 


在 最 底层 ,和 哈 希 列表 一 样 ,我 们 把 数据 分 成 小 的 数据 块 , 有 相应 的 哈 希 和 它 对 应 。 
但 是 往 上 走 , 并 不 是 直接 运算 根 哈 希 ,而 是 把 相 邻 的 两 个 哈 希 合并 成 一 个 字符 串 , 然 后 运 
算 这 个 字符 串 的 哈 希 ,这 样 每 两 个 哈 希 组 合 得 到 了 一 个 “ 子 哈 希 ”。 如 果 最 底层 的 哈 希 总 
数 是 单数 ,那么 到 最 后 必然 出 现 一 个 单 哈 希 ,对 于 这 种 情况 直接 对 它 进行 哈 希 运算 ,所 以 
也 能 得 到 它 的 子 哈 希 。 于 是 往 上 推 , 依 然 是 一 样 的 方式 ,可 以 得 到 数目 更 少 的 新 一 级 哈 
和 希 , 最 终 必 然 形成 一 棵 倒 着 的 树 , 到 了 树 根 的 这 个 位 置 就 剩 下 一 个 根 哈 希 了 ,我 们 把 它 称 
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为 Merkle Root, 如 图 4-12 所 示 。 


Merkle Root 


| hash(hash(B1)+hash(B2)) | {hash(hash(B3)+hash(B4)) | 











| hash(B1) ] (rnez ) ( hash(B3) | (ae ) 
( Block | ] ( Block 2 | ( Block 3 ) ( Block 4 J 


图 4-12 Merkle Tree 结构 











相对 于 Hash List,Merkle Tree 明显 的 一 个 好 处 是 可 以 单独 拿 出 一 个 分 支 来 对 部 分 
数据 进行 校 验 ,这 是 哈 希 列表 所 不 能 比拟 的 方便 和 高 效 。 


4.3.4 Cuckoo Hash 


Cuckoo 了 哈 希 是 一 种 解决 hash 冲突 的 方法 ,其 目的 是 使 用 简易 的 hash 函数 来 提高 
Hash Table 的 利用 率 ,保证 O(1) 的 查询 时 间 也 能 够 实现 hash key 的 均匀 分 布 。 

基本 思想 是 使 用 两 个 hash 函数 来 处 理 碰撞 ,从 而 每 个 key 都 对 应 到 两 个 位 置 。 

插入 操作 如 下 : 

CD 对 key 值 哈 希 ,生成 两 个 hash key 值 ,hash k1 和 hash k2, 如 果 对 应 的 两 个 位 置 
上 有 一 个 为 空 , 直 接 把 key 插入 即 可 。 

(2) 否则 , 任 选 一 个 位 置 .把 key 值 插 入 ,把 已 经 在 那个 位 置 的 key 值 踢 出 。 

(3) 被 踢 出 来 的 key 值 需要 重新 插入 ,直到 没有 key 被 踢 出 为 止 。 

其 查找 思路 与 一 般 哈 希 一 致 。 

Cuckoo Hash 在 读 多 写 少 的 负载 情况 下 能 够 快速 实现 数据 的 查找 。 


4.4 分 布 式 文件 系统 


4.4.1 文件 存储 格式 


文件 系统 最 后 都 需要 以 一 定 的 格式 存储 数据 文件 ,常见 的 文件 系统 存储 布局 有 行 式 
存储 、 列 式 存 储 以 及 混合 式 存 储 3 种 :不同 的 类 别 各 有 其 优 缺 点 和 适用 的 场景 。 在 目前 
的 大 数据 分 析 系 统 中 , 列 式 存储 和 混合 式 存储 方案 因 其 特殊 优点 被 广泛 采用 。 
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1. 行 式 存储 


在 传统 关系 型 数据 库 中 , 行 式 存储 被 主流 关系 型 数据 库 广泛 采用 , HDFS 文件 系统 
也 采用 行 式 存储 。 在 行 式 存储 中 ,每 条 记录 的 各 个 字段 连续 地 存储 在 一 起 ,而 对 于 文件 
中 的 各 个 记录 也 是 连续 存储 在 数据 块 中 ,图 4-13 是 HDFS 的 行 式 存储 布局 ,每 个 数据 块 
除了 存储 一 些 管理 元 数据 外 ,每 条 记录 都 以 行 的 方式 进行 数据 压缩 后 连续 存储 在 一 起 。 
















































关系 
16 Bytes Record 
A B c Sync Number 
1001 HI 121 压缩 后 的 关 压缩 后 的 关 
102 112 122 键 了 长 度 | TRAE. | 
103) 113. 123 
104 114 124 压缩 后 的 值 长 度 
105 115 ms AE 
(101.111.121.131) 
(102,112,122,132) 
(105,115,125,135) 














图 4-13 HDFS 的 行 式 存储 


行 式 存储 对 于 大 数据 系统 的 需求 已 经 不 能 很 好 地 满足 ,主要 体现 在 以 下 几 个 方面 ， 

1) 快速 访问 海量 数据 的 能 力 被 束缚 

行 的 值 由 响应 的 列 的 值 来 定位 ,这 种 访问 模型 会 影响 快速 访问 的 能 力 , 因 为 在 数据 
访问 的 过 程 中 引入 了 耗 时 的 输入 /输出 。 在 行 式 存储 中 ,为 了 提高 数据 处 理 能 力 ,一般 通 
过 分 区 技术 来 减少 查询 过 程 中 数据 输入 /输出 的 次 数 ,从 而 缩短 响应 时 间 。 但 是 这 种 分 
区 技术 对 海量 数据 规模 下 的 性 能 改善 效果 并 不 明显 。 

2) 扩展 性 差 

在 海量 规模 下 ,扩展 性 差 是 传统 数据 存储 的 一 个 致命 的 弱点 。 一 般 通 过 向 上 扩展 
(Scale up) 和 向 外 扩展 (Scale out) 来 解决 数据 库 扩展 的 问题 。 向 上 扩展 是 通过 升级 硬件 
来 提升 速度 ,从 而 缓解 压力 ; 向 外 扩展 则 是 按照 一 定 的 规则 将 海量 数据 进行 划分 ,再 将 原 
来 集中 存储 的 数据 分 散 到 不 同 的 数据 服务 器 上 。 但 由 于 数据 被 表示 成 关系 模型 ,从 而 难 
以 被 划分 到 不 同 的 分 片 中 等 原因 ,这 种 解决 方案 仍然 存在 一 定 的 局 限 性 。 


2. 列 式 存 储 


与 行 式 存储 布局 对 应 , 列 式 存储 布局 实际 存储 数据 时 按照 列 对 所 有 记录 进行 垂直 划 
分 ,将 同一 列 的 内 容 连续 存放 在 一 起 。 简 单 的 记录 数据 格式 类 似 于 传统 数据 库 的 平面 型 
数据 结构 ,一般 采取 列 组 (Column Group/Column Family) 的 方式 。 典 型 的 列 式 存储 布局 
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是 按照 记录 的 不 同 列 对 数据 表 进 行 垂直 划分 ,同一 列 的 所 有 数据 连续 存储 在 一 起 ,这 样 
做 有 两 个 好 处 ,一 个 好 处 是 对 于 上 层 的 大 数据 分 析 系统 来 说 ,如 果 查 询 操作 只 涉及 记录 
的 个 别 列 , 则 只 需 读 取 对 应 的 列 内容 即 可 ,其 他 字段 不 需要 进行 读 取 操 作 ; 另 一 个 好 处 
是 ,因为 数据 按 列 存储 ,所 以 可 以 针对 每 列 数据 采取 具有 针对 性 的 数据 压缩 算法 ,从 而 提 
升 压 缩 率 。 但 是 列 式 存储 的 缺陷 也 很 明显 ,对 于 HDFS 这 种 按 块 存储 的 模式 而 言 , 有 可 
能 不 同 列 分 布 在 不 同 的 数据 块 ,所 以 为 了 拼合 出 完整 的 记录 内 容 , 可 能 需要 大 量 的 网 络 
传输 ,导致 效率 低下 。 

采用 列 组 方式 存储 布局 可 以 在 一 定 程度 上 缓解 这 个 问题 ,也 就 是 将 记录 的 列 进行 分 
组 ,将 经 常 使 用 的 列 分 为 一 组 ,这 样 即使 是 按照 列 式 来 存储 数据 ,也 可 以 将 经 常 联 合 使 用 
的 列 存储 在 一 个 数据 块 中 ,避免 通过 不 必要 的 网 络 传输 来 获取 多 列 数据 ,对 于 某 些 场景 
而 言 会 较 大 地 提升 系统 性 能 。 

在 HDFS 场景 下 ,采用 列 组 方式 存储 数据 如 图 4-14 所 示 , 列 被 分 为 3 组 ,A 和 也 分 
为 一 组 ,C ALD 各 自 一 组 ,即将 列 划分 为 3 个 列 组 并 存储 在 不 同 的 数据 块 中 。 

列 组 1 


E 


HDFS 块 












101, 111 


列 组 3 


102, 112 


103, 113 











上 上 
111 1 021 1131 
112 | 122 | 132 


113 | 123 133 
114 1 124 1 134 
115 | 125 | 135 


列 组 2 





























图 4-14 HDFS 列 式 存储 布局 
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3. 混合 式 存储 


尽管 列 式 存储 布局 可 以 在 一 定 程度 上 缓解 上 述 的 记录 拼合 问题 ,但 是 并 不 能 彻底 解 
决 。 混 合式 存储 布局 能 够 融合 行 式 和 列 式 存储 布局 的 优点 ,能 比较 有 效 地 解决 这 一 问题 。 

混合 式 存储 布局 融合 了 行 式 和 列 式 存储 布局 的 优点 ,首先 将 记录 表 按 照 行进 行 分 
组 ,若干 行 划分 为 一 组 ,而 对 于 每 组 内 的 所 有 记录 ,在 实际 存储 时 按照 列 将 同一 列 内容 连 
续 存 储 在 一 起 。 


4.4.2 GFS 


GFS(Google File System) 是 Google 公司 为 了 存储 百 亿 计 的 海量 网 页 信息 而 专门 开 
发 的 文件 系统 。 在 Google 的 整个 大 数据 存储 与 处 理 技术 框架 中 ,GFS 是 其 他 相关 技术 
的 基石 , 既 提 供 了 海量 非 结 构 化 数据 的 存储 平台 ,又 提供 了 数据 的 元 余 备 份 、 成 千 台 服务 
器 的 自动 负载 均衡 以 及 失效 服务 器 检测 等 各 种 完备 的 分 布 式 存储 功能 。 

考虑 到 GFS 是 在 搜索 引擎 这 个 应 用 场景 下 开发 的 ,在 设计 之 初 就 定 下 了 几 个 基本 的 
设计 原则 。 

首先 ,GFS 采用 大 量 商业 PC 来 构建 存储 集群 。PC 的 稳定 性 并 没有 很 高 的 保障 ,万 
其 是 大 规模 集群 ,每 天 都 有 机 器 宕 机 或 者 硬盘 故障 发 生 , 这 是 PC 集群 的 常态 。 因 此 , 数 
据 宛 余 备 份 .故障 自动 检测 .故障 机 器 自动 恢复 等 都 列 在 GFS 的 设计 目标 里 。 

其 次 ,GFS 中 存储 的 文件 绝 大 多 数 是 大 文件 ,文件 大 小 集中 在 100MB 到 几 GB 之 
[a] ,所 以 系统 设计 应 该 对 大 文件 的 读 / 写 操作 做 出 有 针对 性 的 优化 。 

再 次 ,系统 中 存在 大 量 的 “追加 ” 写 操作 , 即 在 已 有 文件 的 末尾 追加 内 容 , 已 经 写 入 的 
内 容 不 做 更 改 ; 而 很 少 有 “随机 ? 写 行 为 . 即 在 文件 的 某 个 特定 位 置 之 后 写 人 数据 。 

最 后 ,对 于 数据 读 取 操 作 来 说 , 绝 大 多 数 操作 都 是 “顺序 ? 读 , 少 量 的 操作 是 “随机 ” 
读 , 即 按照 数据 在 文件 中 的 顺序 一 次 读 入 大 量 数据 .而 不 是 不 断 地 在 文件 中 定位 到 指定 
位 置 读 取 少量 数据 。 

在 下 面 的 介绍 中 可 以 看 到 ,GFS 的 大 部 分 技术 思路 都 是 围绕 以 上 几 个 设计 目标 提 
出 的 。 

在 了 解 GFS 整体 架构 之 前 首先 了 解 一 下 GFS 中 的 文件 和 文件 系统 。 在 应 用 开发 者 
看 来 ,GFS 文件 系统 类 似 于 Linux 文件 系统 中 的 目录 和 目录 下 的 文件 构成 的 树 形 结构 。 
这 个 树 形 结构 在 GFS 中 被 称 为 “GFS 命名 空间 ” ,同时 ,GFS 提供 了 文件 的 创建 ,删除 、 读 
取 和 写 入 等 常见 的 操作 接口 。 

上 文 说 到 .GFS 中 大 量 存储 的 是 大 文件 .文件 大 小 超过 几 GB 是 很 常见 的 。 虽 然 文 
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件 大 小 各 异 , 但 GFS 在 实际 存储 的 时 候 首先 将 不 同 大 小 的 文件 切割 成 固定 大 小 的 数据 
块 ,每 一 个 块 称 为 一 个 “Chunk”。 通 常 一 个 Chunk 的 大 小 设 定 为 64MB, 这 样 每 个 文件 就 
是 由 若干 个 固定 大 小 的 Chunk 构成 的 。 

GFS 以 Chunk 为 基本 存储 单位 ,同一 个 文件 的 不 同 Chunk 可 能 存储 在 不 同 的 
ChunkServer 上 ,每 个 ChunkServer 可 以 存储 来 自 于 不 同文 件 的 Chunk。 另 外 ,在 
ChunkServer 内 部 会 对 Chunk 进一步 切割 ,将 其 切割 为 更 小 的 数据 块 , 每 一 块 被 称 为 一 
个 “Block”。Block 是 文件 读 取 的 基本 单位 , 即 每 次 读 取 至 少 读 一 个 Block. 

图 4-15 显示 了 GFS 的 整体 架构 ,在 这 个 架构 中 , 主 节点 主要 用 来 做 管理 工作 ,负责 
维护 GFS 命名 空间 和 Chunk 命名 空间 。 在 GFS 系统 内 部 ,为 了 能 识别 不 同 的 Chunk, 
每 个 Chunk 都 被 赋予 一 个 唯一 的 编号 ,所 有 Chunk 编号 构成 了 Chunk 命名 空间 。 由 于 
GFS 文件 被 切割 成 了 Chunk, 主 节点 还 记录 了 每 个 Chunk 存储 在 哪 台 ChunkServer E. 
以 及 文件 和 Chunk 之 间 的 映射 关系 。 


















































应 用 程序 GFS 主 节点 
(文件 名 ，Chunk 索 引 ) | 文件 命名 空间 sen toolbar 
GFS n i „| chunk 2ef | 
(Chunk 句 栖 ,Chunk 位 置 ) AN 3 aay 
mad 标注 ， 
向 数据 块 服务 器 发 出 指 令 ney 
一 一 控制 信号 
数据 块 服务 器 状态 
(Cunk 句 柄 ， 字 节 范 围 ) 
GFS 数 据 块 服务 器 GFS 数 据 块 服 务 器 
Chunk 数 据 
Linux 文 件 系统 Linux 文 件 系统 
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图 4-15 GFS 的 整体 架构 
在 GFS 架构 下 ,我 们 来 看 看 “GFS 客户 端 ? 是 如 何 读 取 数据 的 。 
对 于 “GFS 客户 端 "来 说 ,应 用 开发 者 提交 的 数据 请 求 是 从 文件 file 中 的 位 置 P 开始 
读 取 大 小 为 工 的 数据 。GFS 系统 在 收 到 这 种 请 求 后 会 在 内 部 做 转换 ,因为 Chunk 的 大 
小 是 固定 的 ,所 以 从 位 置 P 和 大 小 工 可 以 计算 出 要 读 的 数据 位 于 文件 file 的 第 几 个 
Chunk 中 ,请 求 被 转换 为 < file, Chunk 序号 > 的 形式 。 随 后 ,这 个 请 求 被 发 送 到 GFS X: 
节点 ,通过 * 主 服务 器 ?可 以 知道 要 读 的 数据 在 哪 台 ChunkServer 上 ,同时 可 以 将 Chunk 


s 大 数据 基础 及 应 用 


序号 转换 为 系统 内 唯一 的 Chunk 编号 ,并 将 这 两 个 信息 传 回 "GFS 客户 端 ”。 

“GFS 客户 端 " 知 道 了 应 该 去 哪 台 ChunkServer 读 取 数据 后 会 和 ChunkServer 建立 
连接 ,并 发 送 要 读 取 的 Chunk 编号 以 及 读 取 范围 ,ChunkServer 接收 到 请 求 后 将 请 求 的 
数据 发 送 给 “GFS 客户 端 ", 如 此 就 完成 了 一 次 数据 读 取 的 工作 。 


4.4.3 HDFS 


Hadoop 分 布 式 文件 系统 (HDFS) 被 设计 成 适合 运行 在 商业 硬件 (commodity 
hardware) 上 的 分 布 式 文件 系统 。Hadoop 分 布 式 文件 系统 和 现 有 的 分 布 式 文件 系统 有 
很 多 共同 点 ,但 它 和 其 他 的 分 布 式 文件 系统 的 区 别 也 是 很 明显 的 。HDFS 是 一 个 高 度 容 
错 性 的 系统 ,适合 部 署 在 廉价 的 机 器 上 。HDFS 能 提供 高 吞吐 量 的 数据 访问 ,非常 适合 
大 规模 数据 集 上 的 应 用 。HDFS 在 最 开始 是 作为 Apache Nutch 搜索 引擎 项 目的 基础 架 
构 开 发 的 。HDFS 是 Apache Hadoop Core 项 目的 一 部 分 。 

HDFS 采用 master/slave 架构 。 一 个 HDFS 集群 由 一 个 namenode 和 一 定数 目的 
datanode 组 成 。namenode 是 一 个 中 心服 务 器 ,负责 管理 文件 系统 的 名 字 空 间 (namespace) 以 
及 客户 端 对 文件 的 访问 。 集 群 中 的 datanode 一 般 是 一 个 服务 器 ,负责 管理 它 所 在 节点 上 
的 存储 。HDFS 呈现 了 文件 系统 的 名 字 空 间 , 用 户 能 够 以 文件 的 形式 在 上 面 存储 数据 。 
从 内 部 看 ,一 个 文件 其 实 被 分 成 一 个 或 多 个 数据 块 ,这 些 块 存储 在 一 组 datanode 上 。 
namenode 执行 文件 系统 的 名 字 空 间 操作 ,比如 打开 、 关 闭 、 重 命名 文件 或 目录 。 它 也 负责 确 
定数 据 块 到 具体 datanode 节点 的 映射 。datanode 负责 处 理 文件 系统 客户 端的 读 / 写 请 求 。 
在 namenode 的 统一 调度 下 进行 数据 块 的 创建 ,删除 和 复制 。HDFS 架构 如 图 4-16 所 示 。 
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图 4-16 HDFS 架构 
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namenode 和 datanode 被 设计 成 可 以 在 普通 的 商用 机 器 上 运行 ,这 些 机 器 一 般 运行 
Ti GNU/Linux 操作 系统 。 

HDFS 采用 Java 语言 开发 ,因此 任何 支持 Java 的 机 器 都 可 以 部 署 namenode 或 
datanode。 由 于 采用 了 可 移植 性 极 强 的 Java 语言 ,使 得 HDFS 可 以 部 署 到 多 种 类 型 的 机 
器 上 。 一 个 典型 的 部 署 场景 是 一 台 机 器 上 只 运行 一 个 namenode 实例 ,而 集群 中 的 其 他 
机 器 分 别 运行 一 个 datanode 实例 。 这 种 架构 并 不 排斥 在 一 台 机 器 上 运行 多 个 datanode， 
但 是 这 样 的 情况 比较 少见 

客户 端 访 问 HDFS 中 文件 的 流程 如 下 : 

(1) 从 namenode 获得 组 成 这 个 文件 的 数据 块 位 置 列表 。 

(2) 根据 位 置 列表 得 到 储存 数据 块 的 datanode。 

(3) 访问 datanode 获取 数据 。 

HDFS 保证 数据 存储 可 靠 性 的 机 理 如 下 : 

CD 元 余 副本 策略 。 所 有 数据 都 有 副本 ,对 于 副本 的 数目 可 以 在 hdfs-site. xml 中 设 
置 相 应 的 副本 因子 。 

(2) 机 架 策 略 。 采 用 一 种 “机 架 感知 ”相关 策略 ,一 般 在 本 机 架 存 放 一 个 副本 ,在 其 他 
机 架 再 存放 别 的 副本 ,这样 可 以 防止 机 架 失 效 时 丢失 数据 ,也 可 以 提高 带宽 利用 率 。 

(3) 心跳 机 制 。namenode 周期 性 地 从 datanode 接受 心跳 信号 和 块 报告 ,没有 按时 
发 送 心 跳 的 datanode 会 被 标记 为 宕 机 ,不 会 再 给 任何 1/0 请 求 , 若 是 datanode 失效 造成 
副本 数量 下 降 , 并 且 低 于 预先 设置 的 阔 值 ,namenode 会 检测 出 这 些 数据 块 , 并 在 合适 的 
时 机 进行 重新 复制 。 

(4) 安全 模式 。namenode 启动 时 会 先 经 过 一 个 “安全 模式 ”阶段 。 

(5) 校 验 和 。 客 户 端 获 取 数 据 通过 检查 校 验 和 发 现 数据 块 是 否 损 坏 ,从 而 确定 是 否 
要 读 取 副本 。 

(6) 回收 站 。 删 除 文件 会 先 到 回收 站 ,其 里 面 的 文件 可 以 快速 恢复 。 

(7) 元 数据 保护 。 映 像 文 件 和 事务 日 志 是 namenode 的 核心 数据 ,可 以 配置 为 拥有 
多 个 副本 。 

(8) 快照 。 支 持 存储 某 个 时 间 点 的 映像 .需要 时 可 以 使 数据 重 返 这 个 时 间 点 的 状态 。 


4.4.4 阿里 云 盘古 


盘古 系统 是 一 个 分 布 式 文件 系统 , 它 是 在 整个 阿里 云 计算 “飞天 ”系统 中 负责 数据 存 
储 的 基石 性 系统 ,其 上 承载 了 一 系列 的 云 服 务 。 盘 古 的 设计 目标 是 将 大 量 通 用 机 器 的 存 
储 资源 聚合 在 一 起 ,为 用 户 提供 大 规模 、 高 可 用 、 高 吞吐 量 和 良好 扩展 性 的 存储 服务 。 
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在 整体 架构 上 盘古 采用 Master/ChunkServer 结构 ,Master 管理 元 数据 ,多 Master 之 
间 采 用 Primary-Secondary 模式 ,基于 Paxos 协议 来 保障 服务 的 高 可 用 ; ChunkServer 负责 实 
际 数据 的 读 / 写 ,通过 宛 余 副 本 提供 数据 安全 ; Client 对 外 提供 类 POSIX 的 专 有 API, 系 
统 地 提供 丰富 的 文件 形式 ,满足 离线 场景 对 高 吞吐 量 的 要 求 、 在 线 场 景 下 对 低 延 迟 的 要 
求 , 以 及 虚拟 机 等 特殊 场景 下 随机 访问 的 要 求 。 其 整体 架构 如 图 4-17 所 示 。 
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图 4-17 盘古 分 布 式 文件 系统 架构 


整个 盘古 Master 对 外 接口 众多 ,根据 是 否 需 要 在 Primary 和 Secondary 之 间 同 步 
Operation Log 分 成 读 和 写 两 大 类 。 所 有 的 读 操作 都 不 需要 同步 Operation Log, 所 有 的 
写 操作 基于 数据 一 致 性 必须 同步 。 考 虑 到 Primary 和 Secondary 随时 可 能 发 生 切 换 , 要 
保证 数据 一 致 ,对 于 Client 端 发 送 的 每 一 个 写 请 求 , Primary 必须 在 同步 Operation Log 
完全 成 功 后 才能 返回 Client; 
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4.5 分 布 式 数据 库 NoSOL 


NoSQL 泛 指 非 关系 型 数据 库 , 相 对 于 传统 关系 型 数据 库 ,NoSQL 有 着 更 复杂 的 分 
类 ,包括 KV 数据 库 、 文 档 数据 库 、 列 式 数据 库 以 及 图 数据 库 等 。 这 些 类 型 的 数据 库 能 够 
更 好 地 适应 复杂 类 型 的 海量 数据 存储 。 


4.5.1 NoSQL 数据 库 概述 


一 个 NoSQL 数据 库 提 供 了 一 种 存储 和 检索 数据 的 方法 ,该 方法 不 同 于 传统 的 关系 
型 数据 库 那 种 表格 形式 。NoSQL 形式 的 数据 库 从 20 世纪 60 年 代 后 期 开始 出 现 ,直到 
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21 世纪 早期 ,伴随 着 Web 2. 0 技术 的 不 断 发 展 ,其 中 以 互联 网 公司 为 代表 ,如 Google, 
Amazon Facebook 等 公司 ,带动 了 NoSQL 这 个 名 字 的 出 现 。 目 前 NoSQL 在 大 数据 领 
域 的 应 用 非常 广泛 ,应 用 于 实时 Web 应 用 。 

促进 NoSQL 发 展 的 因素 如 下 : 

CD 简单 设计 原则 ,可 以 更 简单 地 水 平 扩展 到 多 机 器 集群 。 

(2) 更 细 粒 度 地 控制 有 效 性 。 

一 种 NoSQL 数据 库 的 有 效 性 取决 于 该 类 型 NoSQL 所 能 解决 的 问题 。 大 多 数 
NoSQL 数据 库 系 统 都 降低 了 系统 的 一 致 性 ,以 利于 有 效 性 .分 区 容忍 性 和 操作 速度 。 当 
前 制约 NoSQL 发 展 的 很 大 部 分 是 因为 NoSQL 的 低级 别 查询 语言 .缺乏 标准 接口 以 及 
当前 在 关系 型 数据 的 投入 。 

目前 大 多 数 NoSQL 提供 了 最 终 一 致 性 ,也 就 是 数据 库 的 更 改 最 终 会 传递 到 所 有 节 
点 上 。 表 4-3 是 当前 常用 的 NoSQL 列表 。 


表 4-3 常用 的 NoSQL 列表 





ES m = 例 
Key-Value Cache Infinispan , Memcached , Repcached „Terracotta , Velocity 
Key-Value Store Flare, Keyspace,RAMCloud ,SchemaF ree , HyperDex, Aerospike 
Data-Structures Server Redis 
Document Store Clusterpoint, Couchbase, CouchDB, DocumentDB, Lotus Notes, MarkLogic, 
MongoDB 
Object Database DBAO ,Objectivity/DB,Perst,Shoal, ZopeDB 


4.5.2 KV 数据 库 


KV 数据 库 是 最 常见 的 NoSQL 数据 库 形式 ,其 优势 是 处 理 速度 非常 快 ,缺点 是 只 能 
通过 完全 一 致 的 键 (Key) 查 询 来 获取 数据 。 根 据 数据 的 保存 形式 , 键 值 存储 可 以 分 为 临 
时 性 和 永久 性 ,下 面 介 绍 两 者 兼 具 的 KV 数据 库 Redis. 

Redis 是 著名 的 内 存 KV 数据 库 , 在 工业 界 得 到 了 广泛 的 使 用 。 它 不 仅 支 持 基 本 的 
数据 类 型 ,也 支持 列表 、 集 合 等 复杂 的 数据 结构 ,因此 拥有 较 强 的 表达 能 力 , 同 时 又 有 非 
常 高 的 读 / 写 效率 。Redis 支持 主 从 同步 ,数据 可 以 从 主 服务 器 向 任意 数量 的 从 服务 器 上 
同步 ,从 服务 器 可 以 是 关联 其 他 从 服务 器 的 主 服 务 器 ,这 使 得 Redis 可 以 执行 单 层 树 复 
制 。 由 于 完全 实现 了 发 布 /订阅 机 制 ,使 得 从 数据 库 在 任何 地 方 同步 树 时 可 订阅 一 个 频 
道 并 接收 主 服 务 器 完整 的 消息 发 布 记录 。 同 步 对 读 取 操作 的 可 扩展 性 和 数据 元 余 很 有 
帮助 。 

对 于 内 存 数据 库 而 言 , 最 为 关键 的 一 点 是 如 何 保证 数据 的 高 可 用 性 ,应 该 说 Redis 在 
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发 展 过 程 中 更 强调 系统 的 读 / 写 性 能 和 使 用 便捷 性 ,在 高 可 用 性 方面 一 直 不 太 理想 。 

如 图 4-18 所 示 , 系 统 中 有 唯一 的 Master( 主 设备 ) 负 责 数 据 的 读 / 写 操作 ,可 以 有 多 
个 Slave( 从 设备 ) 来 保存 数据 副本 ,数据 副本 只 能 读 取 不 能 更 新 。Slave 初次 启动 时 从 
Master 获取 数据 ,在 数据 复制 过 程 中 Master 是 非 阻 塞 的 , 即 同时 可 以 支持 读 / 写 操作 。 
Master 采取 快照 结合 增 量 的 方式 记录 即时 起 新 增 的 数据 操作 ,在 Slave 就 绪 之 后 以 命令 
流 的 形式 传 给 Slave,Slave 顺序 执行 命令 流 , 这 样 就 达到 Slave 和 Master 的 数据 同步 。 











L 从 设备 1 
"T 
i 
从 设备 2 


图 4-18 Redis 的 副本 维护 策略 


由 于 Redis 采用 这 种 异步 的 主 从 复制 方式 ,所 以 Master 接收 到 数据 更 新 操作 到 
Slave 更 新 数据 副本 有 一 个 时 间 差 ,如 果 Master 发 生 故 障 可 能 导致 数据 丢失 。 而 且 
Redis 并 未 支持 主 从 自动 切换 ,如 果 Master 故障 ,此 时 系统 表现 为 只 读 ,不 能 写 人 。 由 此 
可 以 看 出 Redis 的 数据 可 用 性 保障 还 是 有 缺陷 的 ,那么 在 现 版 本 下 如 何 实现 系统 的 高 可 
用 呢 ? 一 种 常见 的 思路 是 使 用 Keepalived 结合 虚拟 IP 来 实现 Redis 的 HA 方案 。 
Keepalived 是 软件 路 由 系统 ,主要 目的 是 为 应 用 系统 提供 简洁 强壮 的 负载 均衡 方案 和 通 
用 的 高 可 用 方案 。 使 用 Keepalived 实现 Redis 高 可 用 方案 如 下 : 

首先 在 两 台 (或 多 台 ) 服 务 器 上 分 别 安装 Redis 并 设置 主 从 。 

其 次 ,Keepalived 配置 虚拟 IP 和 两 台 Redis 服务 器 的 IP 的 映射 关系 ,这 样 对 外 统一 
采用 虚拟 IP, 而 虚拟 IP 和 真实 IP 的 映射 关系 及 故障 切换 由 Keepalived 负责 。 当 Redis 
服务 器 都 正常 时 ,数据 请 求 由 Master 负责 ,Slave 只 需要 从 Master 复制 数据 ; 当 Master 
发 生 故 障 时 ,Slave 接管 数据 请 求 并 关闭 主 从 复制 功能 ,以 避免 Master 再 次 启动 后 Slave 
数据 被 清 掉 ; 当 Master 恢复 正常 后 ,首先 从 Slave 同步 数据 以 获取 最 新 的 数据 情况 , 关 
闭 主 从 复制 并 恢复 Master 身份 .与 此 同时 Slave 恢复 其 Slave 身份 。 通 过 这 种 方法 即 可 
在 一 定 程度 上 实现 Redis 的 HA。 


4.5.3 列 式 数据 库 


列 式 数据 库 基于 列 式 存储 的 文件 存储 格局 , 兼 具 NoSQL 和 传统 数据 库 的 一 些 优点 ， 
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有 具有 很 强 的 水 平 扩展 能 力 、 极 强 的 容错 性 以 及 极 高 的 数据 承载 能 力 ,同时 也 有 接近 于 传 
统 关系 型 数据 库 的 数据 模型 ,在 数据 表达 能 力 上 强 于 简单 的 KV 数据 库 。 

下 面 以 BigTable 和 HBase 为 例 介 绍 列 式 数据 库 的 功能 和 应 用 。 

BigTable 是 Google 公司 设计 的 分 布 式 数 据 存 储 系统 ,针对 海量 结构 化 或 半 结 构 化 
的 数据 ,以 GFS 为 基础 ,建立 了 数据 的 结构 化 解释 ,其 数据 模型 与 应 用 更 贴近 。 目 前 
BigTable 已 经 在 超过 60 个 Google 产品 和 项 目 中 得 到 了 应 用 ,其 中 包括 Google Analysis、 
Google Finance, Orkut 和 Google Earth 等 。 

BigTable 的 数据 模型 本 质 上 是 一 个 三 维 映射 表 ,其 最 基础 的 存储 单元 由 行 主 键 、 列 
主键 .时 间 构 成 的 三 维 主键 唯一 确定 。BigTable 中 的 列 主键 包含 两 级 ,其 中 第 一 级 被 称 
Jy“ Jj" (Column Families) ,第 二 级 被 称 为 列 限定 符 (Column Qualifier) ,两 者 共同 构成 
一 个 列 的 主键 。 

在 BigTable 内 可 以 保留 随 着 时 间 变 化 的 不 同 版 本 的 同一 信息 ,这 个 不 同 版 本 由 “时 
间 戳 ?维度 进行 区 分 和 表达 。 

HBase 是 一 个 开源 的 非 关 系 型 分 布 式 数据 库 , 它 参考 了 Google 的 BigTable 模型 , 实 
现 的 编程 语言 为 Java。 它 是 Apache 软件 基金 会 的 Hadoop 项 目的 一 部 分 ,运行 于 HDFS 
文件 系统 之 上 ,为 Hadoop 提供 类 似 于 BigTable 规模 的 服务 。 因 此 , 它 可 以 容错 地 存储 
海量 稀 玖 的 数据 。HBase 在 列 上 实现 了 BigTable 论文 提 到 的 压缩 算法 .内 存 操作 和 布 隆 
过 滤器 BloomFilter。HBase 的 表 能 够 作为 MapReduce 任务 的 输入 和 输出 ,可 以 通过 
Java API 来 访问 数据 ,也 可 以 通过 REST Avro 或 者 Thrift 的 API 来 访问 。HBase 的 整 
体 架 构 如 图 4-19 所 示 。 





图 4-19 HBase 的 架构 图 
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HBase 以 表 的 形式 存放 数据 。 表 由 行 和 列 组 成 ,每 个 列 属 于 某 个 列 复 , 由 行 和 列 确 
定 的 存储 单元 称 为 元 素 , 每 个 元 素 保存 了 同一 份 数据 的 多 个 版 本 ,由 时 间 戳 来 标识 区 分 ， 
如 表 4-4 所 示 。 


表 4-4 HBase 存储 结构 

















行 键 Ay 18) BK 列 "contents: " 列 "anchor: " 3i" mine; " 
ts "anchor ;connsi, com" "CNN" 
ts "anchor: my. look. ca"| "CNN. com" 
"com. cnn. www" ts "< html>" "text/html" 
ts "< html>" 
ts "< html>" 

















4.5.4 图 数据 库 


在 图 的 领域 并 没有 一 套 被 广泛 接受 的 术语 ,存在 着 很 多 不 同类 型 的 图 模型 。 但 是 ， 
有 人 致力 于 创建 一 种 属性 图 形 模型 (Property Graph Model) ,以 期 统一 大 多 数 不 同 的 图 
实现 。 按 照 该 模型 ,属性 图 里 信息 的 建 模 使 用 下 面 3 种 构造 单元 : 

。 节点 ( 即 顶 点 ); 

* 关系 ( 即 边 ) ,具有 方向 和 类 型 (标记 和 标 向 )， 

。 节点 和 关系 上 面 的 属性 ( 即 特性 ) 。 

更 特殊 的 是 ,这 个 模型 是 一 个 被 标记 和 标 向 的 属性 多 重 图 (multigraph) 。 被 标记 的 
图 的 每 条 边 都 有 一 个 标签 , 它 被 用 来 作为 那 条 边 的 类 型 。 有 向 图 允许 边 有 一 个 固定 的 方 
向 ,从 末 或 源 节点 到 首 或 目标 节点 。 属 性 图 允许 每 个 节点 和 边 有 一 组 可 变 的 属性 列表 ， 
其 中 的 属性 是 关联 某 个 名 字 的 值 , 简 化 了 图 形 结构 。 多 重 图 允许 两 个 节点 之 间 存 在 多 条 
边 。 这 意味 着 两 个 节点 可 以 由 不 同 边 连 接 多 次 ,即使 两 条 边 有 相同 的 尾 . 头 和 标记 。 

图 4-20 是 一 个 被 标记 的 小 型 属性 图 。 

下 面 以 Neo4j 这 个 具体 的 图 数据 库 介 绍 图 数据 库 的 特性 。Neo4j 是 基于 Java 开发 
的 开源 图 数据 库 , 也 是 一 种 NoSQL 数据 库 。Neo4j 在 保证 对 数据 关系 的 良好 刻画 的 同 
时 还 支持 传统 关系 型 数据 的 ACID 特性 ,并 且 在 存储 效率 、 集 群 支持 以 及 失效 备 援 等 方 
面 都 有 着 不 错 的 表现 。 

在 所 支持 的 数据 类 型 上 ,Neodj 支持 两 种 数据 类 型 ,具体 结构 如 图 4-21 所 示 。 

CD 节点 。 节 点 类 似 于 E-R 图 中 的 实体 (entity) ,每 个 实体 可 以 有 0 到 多 个 属性 ,这 
些 属性 以 Key-Value 对 的 形式 存在 ,并 且 对 属性 没有 类 别 要 求 , 也 无 须 提 前 定义 。 另 外 ， 
还 允许 给 每 个 节点 打上 标签 ,以 区 别 不 同类 型 的 节点 。 
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图 4-20 小 型 属性 图 
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图 4-21 Neo4j 数据 类 型 


(2) 关系 。 关 系 类 似 于 ER 图 中 的 关系 (relationship) ,一 个 关系 由 一 个 起 始 节点 和 
一 个 终止 节点 构成 。 另 外 和 node 一 样 ,关系 也 可 以 有 多 个 属性 和 标签 。 

一 个 实际 的 图 数据 库 实例 如 图 4-22 所 示 。 

Neodj 具有 以 下 特性 : 

(1) 关系 在 创建 的 时 候 就 已 经 实现 了 ,因而 在 查询 关系 的 时 候 是 一 个 O(1) 的 操作 。 
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Labeled Property Graph Data Model 
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Author 4 Ñ Book 
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图 4-22 图 数据 实例 


(2) 所 有 的 关系 在 Neo4j 中 都 是 同等 重要 的 。 
(3) 提供 了 图 的 深度 优先 搜索 .广度 优先 搜索 .最 短路 径 、 简 单 路 径 以 及 Dijkstra 等 
算法 。 


4.5.5 文档 数据 库 


文档 数据 库 中 的 文档 是 一 个 数据 记录 ,这 个 记录 能 够 对 包含 的 数据 类 型 和 内 容 进行 
“自我 描述 ”, 如 XML X, HTML 文档 和 JSON 文档 。 下 面 是 一 个 以 JSON 为 存储 格 
式 的 文档 数据 库 实例 。 


{ 
"ID":1, 
"NAME" : "SequoiaDB", 
"Tel" :{ 
"Office" :"123123", "Mobile" :"132132132" 
} 
"Addr" : "China, GZ" 
} 











可 以 看 到 ,数据 是 不 规则 的 ,每 一 条 记录 包含 了 所 有 有 关 “SequoiaDB” 的 信息 而 没有 
任何 外 部 的 引用 ,这 条 记录 就 是 “ 自 包 含 " 的 。 这 就 使 得 记录 很 容易 完全 移动 到 其 他 服务 


第 4 章 大 数据 存储 





器 ,因为 这 条 记录 的 所 有 信息 都 包含 在 里 面 了 ,不 需要 考虑 还 有 信息 在 其 他 表 没 有 一 起 
迁移 走 。 同 时 ,因为 在 移动 过 程 中 只 有 被 移动 的 那 一 条 记录 (文档 ) 需 要 操作 而 不 像 关 系 
型 中 每 个 有 联系 的 表 都 需要 锁 住 来 保证 一 致 性 ,这 样 ACID 的 保证 就 会 变 得 更 快速 ， 
读 / 写 的 速度 也 会 有 很 大 的 提升 。 

文档 数据 库 中 的 模型 采用 的 是 模型 视图 控制 嚣 (MVC) 中 的 模型 层 , 每 个 JSON 文档 
的 ID 就 是 它 唯一 的 键 ,这 也 大 致 相当 于 关系 型 数据 库 中 的 主键 。 在 社交 网 站 领域 ,文档 
数据 库 的 灵活 性 在 存储 社交 网 络 图 片 以 及 内 容 方 面 更 好 ,同时 并 发 度 也 更 高 。 

下 面 以 MongoDB 这 种 文档 数据 库 为 例 讲述 文档 数据 库 在 实际 中 的 应 用 。 

MongoDB 是 一 款 跨 平台 ,面向 文档 的 数据 库 。 用 它 创 建 的 数据 库 可 以 实现 高 性 能 、 
高 可 用 性 ,并 且 能 够 轻松 扩展 。MongoDB 的 运行 方式 主要 基于 两 个 概念 , 即 集合 
(collection) 与 文档 (document) 。 合 就 是 一 组 MongoDB 文档 。 它 相当 于 关系 型 数据 
库 (RDBMS) 中 的 表 这 种 概念 。 集 合 位 于 单独 的 一 个 数据 库 中 。 

(1) 集合 。 集 合 不 能 执行 模式 (schema)。 一 个 集合 内 的 多 个 文档 可 以 有 多 个 不 同 
的 字段 。 一 般 来 说 ,集合 中 的 文档 都 有 着 相同 或 相关 的 目的 。 

(2) 文档 。 文 档 就 是 一 组 键 - 值 对 。 文 档 有 着 动态 的 模式 ,这 意味 着 同一 集合 内 的 文 
档 不 需要 具有 同样 的 字段 或 结构 。 

MongoDB 创建 数据 库 采 用 use 命令 ,语法 格式 为 use DATABASE_NAME, 如 创建 
一 个 mydb 的 数据 库 : 


4.6 ”阿里 云 数据 库 


阿里 云 数 据 库 是 一 种 稳定 可 靠 、 可 弹性 伸缩 的 在 线 数据 库 服务 ,提供 NoSQL 数据 库 
和 关系 型 数据 库 两 种 数据 库 服 务 ,并 提供 可 视 化 数据 管理 工具 和 数据 库 专 家 服务 。 下 面 
分 别 以 Redis, RDS 和 Memcache 几 种 云 数据 库 具体 介绍 数据 库 服务 。 


4.6.1 云 数 据 庆 Redis 


阿里 云 数 据 库 Redis 版 (ApsaraDB for Redis) 是 兼容 开源 Redis 协议 的 Key-Value 
类 型 在 线 存储 服务 。 它 支持 字符 串 (String)、 链 表 (Lisb) 、 集 合 (Set) 、 有 序 集合 (SortedSet) 、 
哈 希 表 (Hash) 等 多 种 数据 类 型 ,以 及 事务 (Transaction) .消息 订阅 与 发 布 (Pub/Sub ) 等 
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高 级 功能 。 通 过 “内 存 十 硬盘 ”的 存储 方式 , 云 数据 库 Redis 版 在 提供 高 速 数据 读 / 写 能 力 
的 同时 满足 数据 持久 化 需求 。 
下 面 是 创建 和 使 用 Redis 实例 数据 的 简单 步骤 。 





1. 创建 Redis 实例 数据 库 
相关 内 容 在 此 省 略 。 
2. 连接 Redis 实例 数据 库 


由 于 ApsaraDB for Redis 仅 支持 从 阿里 云 内 网 访问 ,所 以 此 操作 方案 仅 在 阿里 云 
ECS 上 执行 才 生 效 , 因 此 如 果 操 作 Redis 数据 库 需 要 创建 一 个 ECS 实例 ,并 从 Redis 网 
站 (http://redis.io/) 下 载 一 个 Redis 版 本 到 ECS 服务 器 上 。 

连接 ApsaraDB for Redis 必须 指定 密码 ,初始 密码 已 在 创建 

图 4-23 是 建立 ECS 实例 之 后 网 页 控制 台 终端 连接 Redis 
接 的 Redis 实例 中 缺少 密码 ,所 以 无 法 





实例 时 创建 。 
数据 库 的 方式 ,该 连 












With HEREX (9i-m Se 8kIh097 pH fik6i69 » 


Lqzhong8a 1 ibook- 
/homeqzhong/red 

[qzhong@a l ibook-ecs rc/redis-cli "cat /tmp/redis-connection. log" 
r-bp1585252e97be. con:6379» get foo 

(error) NOAUTH Aut! d 

r-bp1585252e97be: s.ali :6379> set foo bar 

(error) NOAUTH Authentication required. 
r-bp1585252e97be14 .redis .rds .al iyuncs .com:6379> get hello 

(error) NOAUTH Authentication required. 

r-bp1585252e97be14 . red i E com:6379» get world 

(error) NOAUTH Authenticati ired 

r-bp1585252e97be14 .redis.rds.aliyuncs .com:6379> set world world 

(error) NOAUTH Authentication required. 

r-bp158525Ze97be14.redis.rds.aliuuncs .com:6379> 





图 4-23 ECS 网 页 控制 台 连 接 Redis 实例 





ECS 对 应 有 公 网 的 IP 地 址 ,也 可 以 利用 bash, xshell 等 桌面 终端 连接 到 ECS 服务 器 
大 后 再 连接 Redis 实例 ,如 图 4-24 所 示 。 在 该 图 中 ,tmp 下 redis-connection. log 文件 
为 指定 具体 的 Redis 主机 、Redis 端口 以 及 Redis 连接 密码 

















的 内 容 
3. 操作 Redis 数据 库 
云 数 据 库 Redis 支持 开源 社区 中 Redis 的 绝 大 部 分 功能 ,但 是 也 有 部 分 受 限制 ,详情 
可 以 参考 Redis 命令 (https://help. aliyun. com/document _detail/26356. html? spm = 


5176. 7738699. 0. 0. qx7Pqw) 。 


图 4-25 是 云 数 据 库 Redis 的 简单 操作 ,包括 get 操作 、set EVE. incr 操作 和 del 
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Connecting to 139.129.219.199:22 
Connection established. 
To escape to local shell, press 'Ctrl+Alt+]' 


Last login: Sat Nov 19 11:10:02 2016 from 159.226.43.96 


Welcome to aliyun Elastic Compute Service! 


[qzhong@alibook-ecs -]$ cd redis-3.2.5/ 
[qzhong@alibook-ecs redis-3.2.5]$ pwd 
/home/qzhong/redis-3.2.5 


[qzhong@alibook-ecs redis-3.2.5]$ ./src/redis-cli ‘cat /tmp/redis-connection.log^ 


r-bp1585252e97bel4.redis.rds.aliyuncs.com:6379» get foo 
"bar" 

r-bp1585252e97be14.redis.rds.aliyuncs.com:6379> get world 
"world" 

r-bp1585252e97be14.redis.rds.aliyuncs.com:6379> get hello 
"world" 

r-bp1585252e97be14. redis . rds .aliyuncs .com:6379> | 


图 4-24 





k ECS 服务 器 


04e8b91b0ee842ff.redis.rds.aliyuncs. :6379> set server:name "fido" 
OK 

94e8b91b90ee842ff.redis.rds.aliyuncs. :6379> get server:name 
"fido" 

04e8b91b0ee842ff. redis.rds.aliyuncs. 16379» set connection 10 
OK 

O4e8b91b0ee842 Ff. redis.rds.aliyuncs. :6379> incr connection 
(integer) 11 

O4e8b91b0ee842 Ff. redis.rds.aliyuncs. :6379> incr connection 
(integer) 12 

Q4e8b91b0ee842Ff.redis.rds.aliyuncs. :6379> del connection 
(integer) 1 

94e8b91b0ee842ff.redis.rds.aliyuncs. :6379> incr connection 
(integer) 1 

94e8b91b0ee842ff.redis.rds.aliyuncs. :6379> incr connection 
(integer) 2 

04e8b91b9ee842ff.redis.rds.aliyuncs. :6379> Ë 





性 能 测试 和 性 能 监 





用 Redis 自 带 的 redis benchmark 测试 Redis 的 1 





EC 





执行 操作 的 命令 如 下 : 





./src/redis- benchmark - h < redis - instance - hosts > - p < redis - port > -a<redis— 


instance - password > 








执行 上 述 命令 之 后 的 部 分 结果 如 图 4-26 所 示 , 性 能 监控 可 以 通过 网 页 形式 查看 ， 


到 4-27 所 示 为 系统 的 吞吐 量 性 能 监 
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4.6.2 


云 数据 库 


库 服务 。 其 基于 











MSET (19 keys) 
99 requests complete 

59 parallel clients 

3 bytes payload 

keep alive: 1 


in 4.79 seconds 


1 milliseconds 
milliseconds 
3 milliseconds 
4 milliseconds 
milliseconds 
milliseconds 
milliseconds 
milliseconds 
milliseconds 
9 millisecon 
milliseconds 
203 milliseconds 
= 293 milliseconds 
requests per second 


图 4-26 性 能 测试 的 部 分 结果 








wi ds 
l | 
| n A B ] 
|| a j| | AJ 
\ A f N | 
\ J \ J UI 
à Odua 
图 4-27 Redis 的 吞吐 量 性 能 监控 





云 数 据 库 RDS 


RDSCApsaraDB for RDS,RDS) 是 











-种 稳定 可 靠 、 可 弹性 伸缩 的 在 线 数据 


于 飞天 分 布 式 系统 和 全 SSD 盘 高 性 能 存储 ,支持 MySQL、SQL Server, 








PostgreSQL 和 PPAS( 高 度 兼容 Oracle) 引 擎 ,默认 部 署 主 备 架构 且 提供 了 容 灾 、 备 份 . 恢 
复 监控、 迁移 等 方面 的 全 套 解决 方案 

阿里 云 数据 库 MySQL 版 基于 阿里 巴巴 的 MySQL 源码 分 支 , 经 过 双 十 一 高 并 发 .大 
数据 量 的 考验 ,拥有 优良 的 性 能 和 香 吐 量 。 除 此 之 外 ,阿里 云 数据 库 MySQL 版 还 拥有 经 
过 优化 的 读 / 写 分 离 .数据 压缩 .智能 调 优等 高 级 功能 。 

下 面 以 阿里 去 数据库 MySQL 版 做 简单 的 使 用 说 明 ,详细 使 用 文档 参考 阿里 云 官方 
文档 (https: 


136. 1LL56L) 。 


help. aliyun. com/document. detail/26124. html?spm = 5176. doc26092. 6. 
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1. 设置 白 名 单 


为 了 数据 库 的 安全 稳定 ,用 户 应 该 将 需要 访问 数据 库 的 TP 地 址 或 者 IP 段 加 入 白 名 
单 。 在 启用 目标 实例 前 需要 先 修改 白 名 单 。 
图 4-28 所 示 为 设置 成 允许 所 有 网 络 IP 访问 ,设置 成 0. 0.0.0/0。 


f rm-bp15a7wu7... 5% 











erwan samt SSL | TDE 








= default 





127.0.0.1 








E : 于 白 名 单 设置 为 0.0.0.0/0 代 表 允 许 所 有 地 址 访问 ,设置 为 127.0.0.1 代 表 禁 止 所 有 地 址 访问 。 白 名 单 设置 说 明 
图 4-28 设置 白 名 单 

2. 账户 管理 ,数据库 连接 与 管理 

与 正常 的 MySQL 操作 基本 类 似 。 

3. 性 能 监控 


通过 网 页 形式 可 以 监控 MySQL 示例 的 网 络 流量 磁盘 使 用 空间 .CPU 利用 率 等 ,如 
4-29 和 图 4-30 所 示 o 
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图 4-29 CPU 利用 率 监控 
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图 4-30 MySQL 系统 吞吐 量 
4.6.3 云 数 据 库 Memcache 


云 数 据 库 Memcache 版 (ApsaraDB for Memcache) 是 基于 内 存 的 缓存 服务 ,支持 海 
量 小 数据 的 高 速 访问 。 云 数据 库 Memcache 可 以 极 大 地 缓解 对 后 端 存储 的 压力 ,提高 网 
站 或 应 用 的 响应 速度 。 云 数据 库 Memcache 支持 Key-Value 的 数据 结构 ,兼容 
Memcached 协议 的 客户 端 都 可 与 阿里 云 数据 库 Memcache 版 进行 通信 。 

云 数 据 库 Memcache 版 支持 即 开 即 用 的 方式 快速 部 署 ; 对 于 动态 Web, APP 应 用 ， 
可 通过 缓存 服务 减轻 对 数据 库 的 压力 ,从 而 提高 网 站 整体 的 响应 速度 。 任何 兼容 
Memcached 协议 的 客户 端 都 可 以 访问 阿里 云 数 据 库 Memcache 版 服务 ,用 户 可 以 根据 自 
身 的 应 用 特点 选用 支持 SASL 和 Memcached Binary Protocol 的 任何 Memcached 客 
户 端 。 

下 面 是 Memcache 的 简单 使 用 : 


1. 环境 配置 


Fat C++ 客户 端 (https://launchpad. net/libmemcached/1. 0/1. 0. 18/4- download/ 
libmemcached-1. 0. 18. tar. gz) ,下 载 完 成 之 后 编译 。 


2. 下 载 C++ 代码 示例 


从 GitHub 上 下 载 对 应 的 aliyunbook 仓库 代码 (https://github. com/alibook/ 
alibook-bigdata. git) ,对 应 chapter4 代码 部 分 。 





cd aliyunbook/chapter4 
vim memcached_test. c // 修 改 TARGET_HOST 为 对 应 的 Memcached 实例 名 字 
. /build.sh // 编 译 对 应 的 代码 
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3. 关于 云 数据 库 Memcache 用 户 名 密码 访问 管理 


为 了 简单 ,设置 云 数据 库 Memcache 免 密 码 访问 ,这 样 对 应 的 ECS 主机 可 以 无 密码 
访问 Memcache, 如 图 4-31 所 示 。 








8 orcum Lond Led 


pone nuazezu2e (2) 
prem 1037231328 (5) Em 


a | sae RAS, emma 20% 


图 4-31 设置 无 密码 访问 
4. 运行 测试 用 例 


使 用 ". / build. sh” 生 成 memcached. test. c, 对 应 的 memcached_test. c 代码 如 下 : 





# include < stdio. h> 
# include < string. h> 
# include < libmemcached/memcached. h > 


# define TARGET HOST "5fe328398ee149a2.m.cnqdalicm9pub001. ocs. aliyuncs. com" 


int main(int argc, char * argv[]) 
{ 
memcached_st * memc = NULL; 
memcached_return_t rc; 
memcached server st * server; 
memc - memcached create(NULL); 
server = memcached server list append(NULL, TARGET HOST, 11211,&rc); 


rc = memcached server push(memc, server); 
if (rc != MEMCACHED SUCCESS) ( 

fprintf(stderr, "Failed to connect MemCached server, error: % din", rc); 
) 


mencached server list free(server); 


const char * key = "TestKey"; 
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const char * value = "TestValue"; 
size_t value_length = strlen(value); 
size_t key_length = strlen(key); 
int expiration = 0; 

0; 


uint32_t flags = 


/ * Save data * / 





fprintf(stdout, Xa); 
rc = memcached set(memc, key, key length, value, value length, expiration, flags); 
if (rc != MEMCACHED SUCCESS) ( 


fprintf(stderr, "Save data failed: %d\n", rc); 





return - 1; 


} 
fprintf(stdout, "Save data succeed, key: % s value: % s\n" ,key, value); 


/ * Get data x / 





fprintf(stdout, " == Nn"); 
fprintf(stdout, "Start get key: % s\n", key); 

char * result = memcached_get(memc, key, key_length, &value_length, &flags, &rc); 
fprintf(stdout, "Get value: % s\n", result); 


/ * Get data which doesn't exist * / 


fprintf(stdout, 





const char * key a = "TestKey2"; 

size_t key_a_length = strlen(key_a); 

fprintf(stdout, "Start get key: % s\n", key a); 

result = memcached get(memc, key a, key a length, &value length, &flags, &rc); 
fprintf(stdout, "Get value: % s\n", result); 


/ * Delete data 
fprintf(stdout, 





fprintf(stdout, "Start delete key: % s\n", key); 
rc = memcached delete(memc,key, key length, expiration); 
if (rc != MEMCACHED SUCCESS) ( 
fprintf(stderr, "Delete key failed: %s\n", rc); 
) 
fprintf(stdout, "Delete key succeed\n") ; 


/x free x/ 
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memcached_free(memc); 


return 0; 











所 示 。 


_samplel ,运行 结果 如 图 4-32 


[qzhong@alibook-ecs chap 
build.sh memcached test memcached test.c 
a -ecs chapter4]$ ./memcech 


y: TestKey va 


Start get key: TestKey 
Get value: TestValue 


Start get key: TestK 
Get value: (null) 








hed 示例 的 运行 








Memcache 监控 信息 如 图 4-33 和 图 4-34 所 示 。 
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图 4-33 Memcached 命中 率 监 
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图 4-34 
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4.7 大 数据 存储 技术 的 趋势 


目前 数据 在 不 断 产 生 , 需 要 存储 系统 提供 更 强 的 存储 能 力 以 及 更 高 的 检索 效率 。 当 
前 硬件 设备 的 成 本 不 断 下 降 , 如 内 存 成 本 在 不 断 降低 ,为 了 满足 高 并 发 低 延 迟 的 需求 ,不 
断 出 现 新 的 内 存 存储 系统 ,包括 RAMCloud, Mica, VoltDB 等 以 内 存 为 存储 介质 的 分 布 
式 存储 系统 。 因 此 ,以 内 存 为 存储 介质 的 分 布 式 存储 系统 将 是 以 后 的 一 个 发 展 方向 。 

其 次 ,当前 硬件 设备 的 性 能 不 断 提升 ,传统 的 单纯 只 考虑 软件 设计 原则 显然 不 适合 ， 
需要 结合 新 的 硬件 特性 来 做 加 速 和 重新 设计 新 的 分 布 式 存储 系统 ,比如 NVM 存储 介质 
的 出 现 , 在 设计 以 NVM 为 存储 介质 的 分 布 式 系统 的 时 候 在 可 靠 性 方面 必然 与 易 失 型 内 
存 有 显著 的 区 别 。 同 时 ,多 核 CPU ,高 速 网 卡 等 都 需要 充分 发 挥 性 能 ,因此 软 / 硬 件 协同 
也 是 分 布 式 存储 系统 的 一 个 技术 趋势 。 

存储 系统 的 通用 性 和 针对 性 是 两 个 不 同 的 设计 选择 ,目前 大 多 数 存 储 系 统 都 不 太 可 
能 满足 各 种 场景 ,比如 HDFS 分 布 式 文件 系统 是 针对 大 文件 存储 ,Facebook Haystack 是 
针对 小 文件 ,淘宝 的 TFS 也 是 针对 于 小 文件 存储 的 。 因 此 ,针对 性 是 分 布 式 存储 系统 的 
发 展 趋势 。 





4.8 习题 


. 简 述 数据 的 分 片 类 型 。 

. 简 述 LSM Tree 的 工作 原理 。 

.分布 式 文件 系统 存储 格式 有 哪 几 种 ? 分 别 阐述 。 

- FAU NoSQL? 它 与 关系 型 数据 库 有 什么 区 别 ? 简 述 NoSQL 的 使 用 场景 。 
. 数据 一 致 性 包含 哪 几 种 ? 各 自 有 什么 区 别 ? 
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5.1 CPU 多 核 和 POSIX Thread 


为 了 提高 任务 的 计算 处 理 能 力 , 下 面 分 别 从 硬件 和 软件 层面 研究 新 的 计算 处 理 
能 力 。 

在 硬件 设备 上 ,CPU 技术 不 断 发 展 ,出 现 了 SMP( 对 称 多 处 理 器 ) 和 NUMA( 非 一 致 
性 内 存 访 问 ) 两 种 高 速 处 理 的 CPU 结构 。 处 理 器 性 能 的 提升 给 大 量 的 任务 处 理 提供 了 
很 大 的 发 展 空间 。 图 5-1 是 SMP ffl NUMA 结构 的 CPU,CPU 核 数 的 增加 带 来 了 计算 
能 力 的 提高 ,但 是 也 随 之 带 来 了 大 量 的 问题 需要 解决 ,比如 CPU 缓存 一 致 性 问题 、 
NUMA 内 存 分 配 策略 等 ,目前 已 经 有 比较 不 错 的 解决 方案 。 





CPU | CPU | w | 




















路 由 器 
CPU | | CPU 
SMP 架 构 NUMA 架 构 


图 5-1 SMP 和 NUMA 架构 CPU 
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在 软件 层面 出 现 了 多 进程 和 多 线程 编程 。 进 程 是 内 存 资源 管理 单元 ,线程 是 任务 调 
度 单元 。 图 5-2 是 进程 和 线程 之 间 的 区 别 。 
用 户 地 址 空间 
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用 户 地 址 空间 
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main ) 
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UNIX 进 程 UNIX 进 程 里 的 线程 
图 5-2 进程 与 线程 


总 的 来 说 ,线程 所 占用 的 资源 更 少 ,运行 一 个 线程 所 需要 的 资源 包括 寄存 器 、 栈 、 程 
序 计数 器 等 。 早 期 不 同 厂商 提供 了 不 同 的 多 线程 编写 库 , 这 些 线程 库 差异 巨大 ,为 了 统 
一 多 种 不 同 的 多 线程 库 , 共 同 制定 了 POSIX Thread 多 线程 编程 标准 ,以 充分 利用 多 个 不 
同 的 线程 库 。 组 成 POSIX Thread 的 API 分 成 以 下 4 个 大 类 : 

COD 线程 管理 。 线 程 管理 主要 负责 线程 的 create、detach、join 等 ,也 包括 线程 属性 的 
查询 和 设置 。 

(2) mutexes。 处 理 同步 的 例 程 (routine) 称 为 mutex, mutex 提供 了 create destroy, 
lock 和 unlock 等 函数 。 

(3) 条 件 变 量 。 条 件 变 量 主要 用 于 多 个 线程 之 间 的 通信 和 协调 。 

(A) 同步 。 同 步 用 于 管理 读 / 写 锁 以 及 barriers, 


5.2 MPI 并行 计算 框架 


MPI( Message Passing Interface) 是 一 个 标准 且 可 移植 的 消息 传递 系统 ,服务 于 大 规 
模 的 并 行 计 算 。MPI 标准 定义 了 采用 C、C++ Fortran 语言 编写 程序 的 函数 语法 和 语义 。 
目前 有 很 多 经 过 良好 测试 和 高 效率 的 关于 MPI 的 实现 ,广泛 采用 的 实现 有 MPICH。 下 
面 以 MPICH 为 例 展 开 对 MPI 的 讲解 。 
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MPICH 是 一 个 高 性 能 且 可 以 广泛 移植 的 MPI 实现 。 图 5-3 为 MPICH 的 架构 图 。 










Application 





MPI Interface 


Nemesis NetMod Interface 








5-3 MPICH 架构 


如 图 5-3 所 示 ,应 用 程序 通过 MPI 结构 连接 到 MPICH 接口 层 , 图 中 的 ROMIO 是 
MPI-IO 的 具体 实现 版 本 ,对 应 MPI 标准 中 的 高 性 能 实现 。MPICH 包括 ADI3 CH3 
Device, CH3 Interface, Nemesis, Nemesis NetMod Interface. 

(D ADI3, ADI 是 抽象 设备 接口 (abstract device interface), MPICH 通过 ADI3 接 
口 层 隔离 底层 的 具体 设备 。 

(2) CH3 Device, CH3 Device 是 ADI3 的 一 个 具体 实现 ,使 用 了 相对 少数 目的 函数 
功能 。 在 CH3 Device 实现 了 多 个 通信 channel. channel 提供 了 两 个 MPI 进程 之 间 传 递 
数据 的 途径 以 及 进程 通信 。 当 前 包括 两 个 channel. BJ Nemesis 和 Sock, HP Sock 是 一 
个 基于 UNIX Socket 的 channel, 而 Nemesis 支持 多 种 方法 ,不 仅仅 局 限于 Socket 通信 。 

(3) CH3 Interface, CH3 Inferface 用 于 定义 访问 Nemesis 的 接口 规范 。 

(4) Nemesis, Nemesis 允许 两 个 MPI 进程 之 间 的 网 络 通信 采取 多 种 方法 ,包括 
TCP, InfiniBand 等 。 


5.3 Hadoop MapReduce 


Hadoop 是 一 个 由 Apache 基金 会 开发 的 分 布 式 系统 基础 架构 。Hadoop 框架 最 核心 
的 设计 就 是 HDFS 和 MapReduce, HDFS 为 海量 的 数据 提供 了 存储 ,而 MapReduce 为 海 
量 的 数据 提供 了 计算 。 
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HDFS( Hadoop Distributed File System) 有 高 容错 性 的 特点 ,并 且 设 计 用 来 部 署 在 
低廉 的 硬件 上 ; 而 且 它 提 供 高 吞吐 量 来 访问 应 用 程序 的 数据 ,适合 有 着 超大 数据 集 的 应 
用 程序 。HDFS 放宽 了 POSIX 的 要 求 ,可 以 用 流 的 形式 访问 文件 系统 中 的 数据 。 

MapReduce 是 Google 公司 提出 的 一 个 软件 框架 ,用 于 大 规模 数据 集 ( 大 于 1TB) 的 
并 行 运算 。“Map” 和 “Reduce” 概 念 以 及 它们 的 主要 思想 都 是 从 函数 式 编 程 语言 借 来 的 ， 
还 有 从 矢量 编程 语言 借 来 的 特性 。 

当前 的 软件 实现 是 指定 一 个 Map 函数 ,用 来 把 一 组 键 值 对 映射 成 一 组 新 的 键 值 对 ， 
指定 并 发 的 Reduce 函数 ,用 来 保证 所 有 映射 的 键 值 对 中 的 每 一 个 共享 相同 的 键 组 。 

处 理 流程 如 下 : 

(1) MapReduce 框架 将 应 用 的 输入 数据 切 分 成 M 个 模块 ,典型 的 数据 块 大 小 
为 64MB, 

(2) 具有 全 局 唯一 的 主 控 Master 以 及 若干 个 Worker, Master 负责 为 Worker 分 配 
具体 的 Map 或 Reduce 任务 并 做 全 局 管理 。 

(3) Map 任务 的 Worker 读 取 对 应 的 数据 块 内 容 , 从 数据 块 中 解析 Key/ Value 记录 
数据 并 将 其 传 给 用 户 自 定义 的 Map 函数 , Map 函数 输出 的 中 间 结 果 Key/ Value 数据 在 
内 存 中 缓存 。 

(4) 缓存 的 Map 函数 产生 的 中 间 结 果 周 期 性 地 写 和 磁盘 ,每 个 Map 函数 中 间 结 果 
EE A EAS TT KAD FA PB) HMR (9 -R FE Reduce 的 个 数 。 一 般 用 Key 对 R 进行 哈 希 
取 模 。Map 函数 完成 对 应 数据 块 处 理 后 将 R 个 临时 文件 位 置 通知 Master, Master 再 转 
交 给 Reduce 任务 的 Worker。 

(5) Reduce 任务 Worker 接 到 通知 时 将 Map 产生 的 M 份 数 据 文件 pull 到 本 地 ( 当 
且 仅 当 所 有 Map 函数 完成 时 Reduce 函数 才能 执行 )。Reduce 任务 根据 中 间 数 据 的 Key 
对 记录 进行 排序 ,相同 Key Mick at A EE. 

(6) 所 有 Map \Reduce 任务 完成 , Master 唤醒 用 户 应 用 程序 。 


5.4 Spark 


Spark 是 UC Berkeley AMP Lab 所 开源 的 类 Hadoop MapReduce 的 通用 的 并 行 计 
算 框架 ,Spark 基于 Map-Reduce 算法 实现 的 分 布 式 计算 .拥有 Hadoop MapReduce 所 具 
有 的 优点 ; 不 同 于 MapReduce 的 是 中 间 输 出 和 结果 可 以 保存 在 内 存 中 ,从 而 不 再 需要 
读 / 写 HDFS, 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 Map- 
Reduce 的 算法 。 
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Spark 最 主要 的 结构 是 RDD(Resilient Distributed Datasets), 它 表示 已 被 分 区 、 不 可 
变 的 并 能 够 被 并 行 操作 的 数据 集合 ,不 同 的 数据 集 格 式 对 应 不 同 的 RDD 实现 。RDD 必 
须 是 可 序列 化 的 。RDD 可 以 缓存 到 内 存 中 ,每 次 对 RDD 数据 集 操作 之 后 的 结果 都 可 以 
存放 到 内 存 中 ,下 一 个 操作 可 以 直接 从 内 存 中 输入 ,省 去 了 MapReduce 大 量 的 磁盘 1/O 
操作 。 这 很 适合 迭代 运算 比较 常见 的 机 器 学 习 算 法 、 交 互 式 数据 挖掘。 

与 Hadoop 类 似 ,Spark 支持 单 节点 集群 或 多 节点 集群 。 对 于 多 节点 操作 ,Spark 可 
以 采用 自己 的 资源 管理 器 ,也 可 以 采用 Mesos hy te Mesos 为 分 布 式 
应 用 程序 的 资源 共享 和 隔离 提供 了 一 个 有 效 平台 (参见 图 5-4)。 该 设置 允许 Spark 与 
Hadoop 共存 于 节点 的 一 个 共享 池 中 。 


Spark s Hadoop 


Mesos 


EIE 


图 5-4 Mesos 集群 管理 器 


























5.5 数据 处 理 技术 的 发 展 


数据 处 理 从 早期 的 共享 分 时 单 CPU 操作 系统 处 理 到 多 核 并 发 处 理 , 每 台 计 算 机 设 
备 的 处 理 能 力 在 不 断 增强 ,处 理 的 任务 复杂 度 在 不 断 增 加 ,任务 的 处 理 时 间 在 不 断 减少 。 

然而 , 随 着 大 数据 技术 的 不 断 发 展 ,一 台 计 算 设备 无 法 胜任 目前 大 数据 计算 的 庞大 
的 计算 工作 。 为 了 解决 单 台 计 算 机 无 法 处 理 大 规模 数据 计算 的 问题 ,连接 多 台 计 算 机 设 
备 整合 成 一 个 统一 的 计算 系统 ,对 外 提供 计算 服务 。 早 期 Google 公司 的 分 布 式 计算 框 
架 MapReduce 采用 的 思想 就 是 连接 多 台 廉 价 的 计算 设备 ,以 此 来 提供 进行 大 规模 计算 
任务 的 能 力 。 但 是 MapReduce 是 建立 在 磁盘 之 上 的 并 行 计 算 框架 ,由 于 机 械 磁 盘 本 身 
的 局 限 性 ,MapReduce 仍然 有 很 大 的 计算 延迟 。Spark 提出 了 把 计算 结果 存放 在 内 存 
中 ,利用 内 存 作为 存储 介质 的 方法 极 大 地 缩短 了 系统 的 响应 时 间 , 降 低 了 计算 任务 返回 
结果 的 延迟 。 为 了 满足 大 规模 机 器 学 习 计算 任务 的 需求 ,也 设计 了 大 量 的 分 布 式 机 器 学 
习 框 架 来 训练 机 器 模型 参数 ,比如 Parameter Server; 针对 图 计算 场合 ,Google 公司 设计 
实现 了 Pregel 图 计算 框架 ,用 于 处 理 最 短路 径 、Dijstra 等 经 典 图 计算 任务 ; 为 了 满足 实 
时 计算 任务 需求 ,设计 实现 了 流 计算 框 架 , 比 如 Spark Streaming, Storm, Flink 等 实时 计 


79 


D 大 数据 基础 及 应 用 


算 框 架 。 
总 之 ,目前 处 理 技术 在 往 大 规模 、 低 延迟 方向 发 展 , 内 存 空间 的 扩大 以 及 内 存 存储 成 
本 的 降低 给 大 规模 数据 处 理 提 供 了 极 好 的 发 展 契 机 。 


5.6 习题 


1. 简 述 CPU 技术 的 发 展 趋势 。 
2. 简 述 MPICH 并 行 计 算 框架 。 
3. 简 述 MapReduce 的 原理 。 
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6.1 Hadoop MapReduce 架构 


MapReduce 是 一 种 分 布 式 计 算 框架 ,能 够 处 理 大 量 数据 ,并 提供 容错 .可 靠 等 功能 ， 
运行 部 署 在 大 规模 计算 集群 中 。 

MapReduce 计算 框架 采用 主 从 架构 ,由 Client JobTracker, Task Tracker 组 成 ,如 
图 6-1 所 示 。 
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图 6-1 MapReduce 架构 
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1. Client 


用 户 编写 MapReduce 程序 ,通过 Client 提交 到 Job Tracker. fy JobTracker 来 执行 具 
体 的 任务 分 发 。Client 可 以 在 Job 执行 过 程 中 查看 具体 的 任务 执行 状态 以 及 进度 。 在 
MapReduce 中 ,每 个 Job 对 应 一 个 具体 的 MapReduce 程序 。 


2. JobTracker 


JobTracker 负责 管理 运行 的 TaskTracker 节点 ,包括 TaskTracker 节点 的 加 入 和 退 
出 ; 负责 Job 的 调度 与 分 发 ,每 一 个 提交 的 MapReduce Job 由 JobTracker 安排 到 多 个 
TaskTracker 节点 上 执行 ; 负责 资源 管理 ,在 当前 MapReduce 框架 中 每 个 资源 抽象 成 一 
个 slot. fi H] slot 资源 管理 执行 任务 分 发 。 


3. TaskTracker 


TaskTracker 节点 定期 发 送 心跳 信息 给 JobTracker 节点 ,表明 该 TaskTracker 节点 
运行 正常 。JobTracker 发 送 具 体 的 任务 给 TaskTracker 节点 执行 。TaskTracker 通过 
slot 资源 抽象 模型 ,汇报 给 JobTracker 节点 该 TaskTracker 节点 上 的 资源 使 用 情况 , 具 
体 分 成 了 Map slot 和 Reduce slot 两 种 类 型 的 资源 。 

在 MapReduce 框架 中 ,所 有 的 程序 执行 最 后 都 转换 成 Task 来 执行 。Task 分 成 了 
Map Task 和 Reduce Task. 这 些 Task 都 是 在 TaskTracker 上 启动 。 图 6-2 显示 了 
HDFS 作为 MapReduce 任务 的 数据 输入 源 ,每 个 HDFS 文件 切 分 成 多 个 Block. 以 每 个 
Block 为 单位 同时 兼顾 Block 的 位 置信 息 , 将 其 作为 MapReduce 任务 的 数据 输入 源 , 执 
行 计算 任务 。 
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图 6-2 HDFS 作为 MapReduce 任务 的 数据 输入 源 
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6.2 Hadoop MapReduce 与 高 效能 计算 、 网 格 
计算 的 区 别 


在 Hadoop 出 现 之 前 ,高 性 能 计算 和 网 格 计算 一 直 是 处 理 大 数据 问题 主要 的 使 用 方 
法 和 工具 ,它们 主要 采用 消息 传递 接口 (Message Passing Interface,MPI) 提供 的 API 来 
处 理 大 数据 。 高 性 能 计算 的 思想 是 将 计算 作业 分 散 到 集群 机 器 上 ,集群 计算 节点 访问 存 
储 区 域 网 络 SAN 系统 构成 的 共享 文件 系统 获取 数据 ,这 种 设计 比较 适合 计算 密集 型 作 
业 。 当 需要 访问 像 PB 级 别 的 数据 的 时 候 ,由 于 存储 设备 网 络 带 宽 的 限制 ,很 多 集群 计算 
节点 只 能 空闲 等 待 数据 。 而 Hadoop 却 不 存在 这 种 问题 ,由 于 Hadoop 使 用 专门 为 分 布 
式 计算 设 计 的 文件 系统 HDFS, 在 计算 的 时 候 只 需要 将 计算 代码 推送 到 存储 节点 上 即 可 
在 存储 节点 上 完成 数据 的 本 地 化 计算 ,Hadoop 中 的 集群 存储 节点 也 是 计算 节点 。 在 分 
布 式 编程 方面 , MPI 属于 比较 底层 的 开发 库 , 它 赋予 了 程序 员 极 大 的 控制 能 力 ,但 是 却 要 
程序 员 自 己 控制 程序 的 执行 流程 .容错 功能 ,其 至 底层 的 套 接 字 通 信和、 数据 分 析 算 法 等 底 
层 细节 都 需要 自己 编程 实现 。 这 种 要 求 无 疑 对 开发 分 布 式 程序 的 程序 员 提 出 了 较 高 的 
要 求 。 相 反 , Hadoop 的 MapReduce 却 是 一 个 高 度 抽 象 的 并 行 编程 模型 , 它 将 分 布 式 并 
行 编程 抽象 为 两 个 原 语 操 作 , 即 Map 操作 和 Reduce 操作 ,开发 人 员 只 需要 简单 地 实现 相 
应 的 接口 即 可 ,完全 不 用 考虑 底层 数据 流 、 容 错 、 程 序 的 并 行 执行 等 细节 。 这 种 设计 无 疑 
大 大 降低 了 开发 分 布 式 并 行程 序 的 难度 。 

网 格 计算 通常 是 指 通 过 现 有 的 互联 网 ,利用 大 量 来 自 不 同 地 域 .资源 异 构 的 计算 机 
空闲 的 CPU 和 磁盘 来 进行 分 布 式 存储 和 计算 。 这 些 参与 计算 的 计算 机 具有 分 处 不 同 地 
域 .资源 异 构 ( 基 于 不 同 平台 ,使 用 不 同 的 硬件 体系 结构 ,…) 等 特征 ,从 而 使 网 格 计算 和 
Hadoop 这 种 基于 集群 的 计算 相 区 别 。Hadoop 集群 一 般 构建 在 通过 高 速 网 络 连接 的 单 
一 数据 中 心 内 ,集群 计算 机 都 具有 体系 结构 .平台 一 致 的 特点 ,而 网 格 计算 需要 在 互联 网 
接 入 环境 下 使 用 .网 络 带宽 等 都 没有 保证 。 


6.3 MapReduce 工作 机 制 


MapReduce 计算 模式 的 工作 原理 是 把 计算 任务 拆 解 成 Map 和 Reduce 两 个 过 程 来 
执行 ,具体 如 图 6-3 所 示 。 
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图 6-3 MapReduce 的 工作 机 制 


整体 而 言 , 一 个 MapReduce 程序 一 般 分 成 Map 和 Reduce 两 个 阶段 ,中 间 可 能 会 有 
Combine。 在 数据 被 分 割 后 通过 Map 函数 的 程序 将 数据 映射 成 不 同 的 区 块 ,分 配给 计算 
机 集群 处 理 达到 分 布 式 运算 的 效果 ,再 通过 Reduce 函数 的 程序 将 结果 汇 整 ,最 后 输出 运 
行 计算 结果 。 


6.3.1 Map 


在 进行 Map 计算 之 前 ,MapReduce 会 根据 输入 文件 计算 输入 分 片 input split) ,每 
个 输入 分 片 针对 一 个 Map 任务 ,输入 分 片 存储 的 并 非 数据 本 身 , 而 是 一 个 分 片 长 度 和 一 
个 记录 数据 位 置 的 数组 ,输入 分 片 往往 和 hdfs 的 block( 块 ) 的 关系 很 密切 。 假 如 设 定 
hdfs 的 块 的 大 小 是 64MB ,如 果 我 们 输入 3 个 文件 ,大 小 分 别 是 3MB,65MB 和 127MB, 
那么 MapReduce 会 把 3MB 文件 分 为 一 个 输入 分 片 ,65MB 则 是 两 个 输入 分 片 ,127MB 
也 是 两 个 输入 分 片 。 换 名 话说, 如果 在 Map 计算 前 做 输入 分 片 调整 ,例如 合并 小 文件 , 那 
么 会 有 5 个 Map 任务 将 执行 ,而 且 每 个 Map 执行 的 数据 大 小 不 均 , 这 也 是 MapReduce 
优化 计算 的 一 个 关键 点 。 

接着 是 执行 Map 函数 , Map 操作 一 般 由 用 户 指定 。Map 函数 产生 输出 结果 时 并 不 
是 直接 写 人 到 磁盘 ,而 是 采用 缓冲 方式 写 人 到 内 存 中 ,并 对 数据 按 关 键 字 进行 预 排序 ,如 
图 6-3 所 示 。 每 个 Map 任务 都 有 一 个 环形 内 存 缓冲 ,用 于 存储 Map 操作 结果 ,在 默认 情 
况 下 缓冲 区 大 小 为 100MB, 该 值 可 以 用 io. sort. mb 属性 修改 。 当 内 存 中 的 数据 增长 到 
一 定 比 例 的 时 候 , 可 以 通过 io. sort. spill. percent 调整 参数 大 小 .后 台 线 程 会 spill 到 磁盘 
上 。 在 写 磁盘 的 过 程 中 ,数据 会 继续 写 到 内 存 缓冲 区 中 。 
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6.3.2 Reduce 


执行 用 户 指定 的 Reduce 函数 ,输出 计算 结果 到 HDFS 集群 上 。Reduce 执行 数据 的 
归并 ,数据 是 以 < key,list(valuel ,value2…) 六 的 方式 存储 的 。 这 里 以 wordcount 的 例子 
来 说 明 , 此 时 的 记录 应 该 是 < hadoop ,list(1)>、< hello,list(1,1)>、< word,list(1)>, 那 么 
结果 应 该 是 < hadoop, list(1)>,< hello, list(2)>,< word, list(1)>。 


6.3.3 Combine 


Combine 是 在 本 地 进行 的 一 个 在 Map 端 做 的 Reduce 的 过 程 ,其 目的 是 提高 
Hadoop 的 效率 。 比 如 存在 两 个 以 hello 为 关键 字 的 记录 ,直接 将 数据 交 给 下 一 个 步骤 处 
理 , 所 以 在 下 一 个 步骤 中 需要 处 理 两 条 < hello.1 > 的 记录 ,如 果 先 做 一 次 Combine, 则 只 
需 处 理 一 次 < hello,2 > 的 记录 ,这 样 做 的 一 个 好 处 就 是 当 数据 量 很 大 时 可 以 减少 很 多 开 
销 ( 直 接 将 partition 后 的 结果 交 给 Reduce 处 理 , 由 于 TaskTracker 并 不 一 定 分 布 在 本 节 
点 ,过 多 的 元 余 记录 会 影响 1/0, 与 其 在 Reduce 时 进行 处 理 , 不 如 在 本 地 先进 行 一 些 优 化 
以 提高 效率 ) 。 


6.3.4 Shuffle 


Shuffle 描述 数据 从 Map task 输出 到 Reduce task 输入 的 这 段 过 程 。 

Map 端的 所 有 工作 结束 之 后 ,最 终生 成 的 这 个 文件 也 存放 在 TaskTracker 节点 的 本 
地 文件 系统 中 。 每 个 Reduce task 不 断 地 通过 RPC 从 JobTracker 那里 获取 Map task 是 
否 完成 的 信息 ,如果 Reduce task 得 到 通知 ,获知 某 个 TaskTracker 上 的 Map task 执行 
完成 。Reduce task 在 执行 之 前 的 工作 就 是 不 断 地 拉 取 当前 Job 里 每 个 Map task 的 最 终 
结果 ,然后 对 从 不 同 地 方 拉 取 过 来 的 数据 不 断 地 做 merge. 最 终 形成 一 个 文件 作为 
Reduce task 的 输入 文件 ,如 图 6-4 所 示 。 

Reducer 真正 运行 之 前 ,所 有 的 时 间 都 是 在 拉 取 数据 ,做 merge, 且 不 断 重复 地 做 。 
下 面 描述 Reduce 端的 Shuffle 细节 。 

(1) copy 过 程 。 其 用 于 简单 地 拉 取 数据 。Reduce 进程 启动 一 些 数据 copy 线程 
(Fetcher) ,通过 HTTP 方式 请 求 Map task 所 在 的 TaskTracker 获取 Map task 的 输出 
文件 。 因 为 Map task 早已 结束 ,这 些 文件 就 归 TaskTracker 管理 在 本 地 磁盘 中 。 

(2) merge 阶段 。 这 里 的 merge 如 Map 端的 merge 动作 ,只 是 数组 中 存放 的 从 不 同 
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Map 端 copy 来 的 数值 。copy 来 的 数据 会 先 放 入 内 存 缓冲 区 中 ,这 里 的 缓冲 区 大 小 要 比 
Map 端的 更 为 灵活 , 它 基 于 JVM 的 heap size 设置 ,因为 在 Shuffle 阶段 Reducer 不 运行 ， 
所 以 应 该 把 绝 大 部 分 的 内 存 都 给 Shuffle 使 用 。 这 里 需要 强调 的 是 ,merge 有 3 种 形式 ， 
即 内 存 到 内 存 、 内 存 到 磁盘 、 磁 盘 到 磁盘 。 在 默认 情况 下 第 一 种 形式 不 启用 ,让 人 比较 困 
惑 。 当 内 存 中 的 数据 量 达 到 一 定 阔 值 时 就 启动 内 存 到 磁盘 的 merge。 与 Map 端 类 似 , 这 
也 是 溢 写 的 过 程 , 在 这 个 过 程 中 如 果 设 置 有 Combiner, 也 是 会 启用 的 ,然后 在 磁盘 中 生成 
了 众多 的 溢 写 文件 。 第 二 种 merge 方式 一 直 在 运行 ,直到 没有 Map 端的 数据 时 才 结 束 ， 
然后 启动 磁盘 到 磁盘 的 merge 方式 生成 最 终 的 那个 文件 。 

(3) Reducer 的 输入 文件 。 不 断 地 merge, 最 后 会 生成 一 个 “最 终 文件 ”"。 那 么 这 里 为 
什么 加 引号 ? 因为 这 个 文件 可 能 存在 于 磁盘 上 ,也 可 能 存在 于 内 存 中 。 对 用 户 来 说 , 当 
然 希望 将 它 存放 于 内 存 中 ,直接 作为 Reducer 的 输入 ,但 默认 情况 下 这 个 文件 是 存放 于 
磁盘 中 的 。 当 Reducer 的 输入 文件 已 定时 整个 Shuffle 才 最 终结 束 。 


-一 





Task Tracker 


š 
i 





图 6-4 数据 从 Map 端 copy 到 Reduce 端 
6.3.5 Speculative Task 


MapReduce 模型 把 作业 拆 分 成 任务 ,然后 并 行 运行 任务 以 减少 运行 时 间 。 存 在 这 
样 的 计算 任务 , 它 的 运行 时 间 远 远 长 于 其 他 任务 的 计算 任务 ,减少 该 任务 的 运行 时 间 
就 可 以 提高 整体 作业 的 运行 速度 ,这 种 任务 也 称 为 “ 拖 后 腿 ” 任 务 。 导 致 任务 执行 缓慢 
的 原因 有 很 多 种 ,包括 软件 和 硬件 原因 ,比如 硬件 配置 更 新 迭代 ,MapReduce 任务 运行 
在 新 旧 硬 件 设备 上 ,负载 不 均衡 ,任务 调度 的 局 限 导 致 每 个 计算 节点 上 的 任务 负载 差 
异 较 大 。 

为 了 解决 上 述 “ 拖 后 腿 " 任 务 导致 的 系统 性 能 下 降 问题 ,Hadoop 为 该 task 启动 
Speculative Task ,与 原始 的 task 同时 运行 ,以 最 快运 行 结束 的 结果 返回 ,加 快 Job 的 执 
行 。 当 为 一 个 task 启动 多 个 重复 的 task 时 ,必然 导致 系统 资源 的 消耗 ,因此 采用 
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Speculative Task 的 方式 是 一 种 以 空间 换 时 间 的 方式 。 

同时 启动 多 个 重复 的 task 会 加 速 系统 资源 的 竞争 ,导致 Speculative Task 无 法 执 
行 。 所 以 启动 一 个 Speculative Task 需要 在 一 个 Job 的 所 有 task 都 启动 完成 之 后 才 启 
动 , 并 且 针 对 那些 运行 时 间 比 平均 运行 时 间 慢 的 任务 。 当 一 个 task 任务 完成 之 后 ,任何 
正在 运行 的 重复 的 任务 都 会 停止 。 总 体 来 讲 ,Speculative Task 是 优化 MapReduce 计算 
过 程 的 一 个 方法 。 

在 Hadoop 中 启动 Speculative Task 的 配置 方法 如 下 。 


<property > 
< name > napred. map. tasks. speculative. execution </name > 
« value? false </value > 
</property> 
< property > 
< name > mapred. reduce. tasks. speculative. execution </name > 


<value > false </value > 





</property> 





在 实际 中 应 该 根据 具体 的 情况 选择 是 否 需要 启动 Speculative Task, 因为 启动 
Speculative Task 是 一 种 加 剧 资源 消耗 的 过 程 ,会 造成 系统 的 性 能 下 降 。 使 用 
Speculative Task 的 目的 是 缩短 时 间 ,但 是 以 牺牲 集群 效率 为 代价 。 


6.3.6 任务 容错 


MapReduce 是 一 种 通用 的 计算 框架 ,有 着 非常 健壮 的 容错 机 制 ,容错 粒度 包括 
JobTracker、TaskTracker、Job、Task、Record 等 级 别 。 由 于 目前 Hadoop 还 是 单 Master 
设计 ,在 一 个 集群 中 只 有 一 个 JobTracker, 一 旦 JobTracker 出 现 错误 往往 需要 人 工 介 入 ， 
但 是 用 户 可 以 通过 一 些 参 数 进行 控制 ,从 而 让 所 有 作业 恢复 运行 。TaskTracker 的 容错 
则 通过 心跳 检测 . 黑 名 单 、 灰 名 单机 制 对 失效 的 TaskTracker 节点 进行 及 时 处 理 达到 容 
错 效果 。 同 时 Hadoop 还 可 以 通过 不 同 的 参数 配置 来 保证 Job Task 以 及 Record 等 级 别 
的 容错 。 

用 户 的 一 个 MapReduce 作业 往往 是 由 很 多 任务 组 成 的 ,只 有 所 有 的 任务 执行 完毕 
才 算 是 整个 作业 成 功 。 对 于 任务 的 容错 机 制 .MapReduce 采用 最 简单 的 方法 进行 处 理 ， 
即 “ 再 执行 ”, 也 就 是 说 对 于 失败 的 任务 重新 调度 执行 一 次 。 一 般 有 两 种 情况 需要 再 
执行 。 

第 一 种 情况 : 如 果 是 一 个 Map 任务 或 Reduce 任务 失败 了 ,那么 调度 器 会 将 这 个 失 
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败 的 任务 分 配 到 其 他 节点 重新 执行 。 

第 二 种 情况 : 如 果 是 一 个 节点 死机 了 .那么 在 这 台 死 机 的 节点 上 已 经 完成 运行 的 
Map 任务 及 正在 运行 中 的 Map 和 Reduce 任务 都 将 被 调度 重新 执行 ,同时 在 其 他 机 器 上 
正在 运行 的 Reduce 任务 也 将 被 重新 执行 ,这 是 由 于 这 些 Reduce 任务 所 需要 的 Map 的 
中 间 结 果 数 据 因 为 那 台 失效 的 机 器 而 丢失 了 。 





6.4 应 用 案例 


下 面 通过 WordCount, WordMean 等 几 个 例子 讲解 MapReduce 的 实际 应 用 ,编程 环 
境 都 是 以 Hadoop MapReduce 为 基础 。 


6.4.1 WordCount 


WordCount 用 于 计算 文件 中 每 个 单词 出 现 的 次 数 ,非常 适合 采用 MapReduce 进行 
处 理 。 处 理 单词 计数 问题 的 思路 简单 ,在 Map 阶段 处 理 每 个 文本 split 中 的 数据 ,产生 
< word. 1 > 这 样 的 键 - 值 对 ; 然后 在 Reduce 阶段 对 相同 的 关键 字 求 和 ,最 后 生成 所 有 的 
单词 计数 。 重 要 部 分 的 伪 代 码 如 下 ,详细 的 可 运行 代码 可 以 从 GitHub 上 下 载 (https: 
//github. com/alibook/alibook-bigdata. git) 。 

对 应 的 Map 端 代码 如 下 。 


public static class TokenizerMapper 
extends Mapper «Object, Text, Text, IntWritable> { 
private final static IntWritable one = new IntWritable(1); 


private Text word = new Text(); 


public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer itr = new StringTokenizer(value.toString()); 
while (itr. hasMoreTokens()) { 
word. set(itr. nextToken()) ; 


context. write(word, one); 
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对 应 的 Reduce 端 代码 如 下 。 





public static class IntSumReducer 
extends Reducer < Text, IntWritable, Text, IntWritable> { 
public void reduce(Text key, Iterable< IntWritable> values, 
Context context) throws IOException, InterruptedException{ 
int sum = 0; 
for (IntWritable val : values) { 


sum += val.get(); 


context. write(key, new IntWritable(sum)) ; 








在 主 函 数 中 设置 该 WordCount Job 的 相关 环境 ,包括 输入 和 输出 、Map 类 和 Reduce 
类 ,如 下 所 示 。 





Configuration conf = new Configuration(); 


Job job = Job.getInstance(conf, "word count"); 


job. setJarByClass( WordCount. class) ; 
job. setMapperC1ass(TokenizerMapper. class); 
job. setReducerClass(IntSumReducer.class); 


job. setCombinerClass(IntSumReducer. class); 


job. setOutputKeyClass(Text.class); 
job. setOutputValueClass(IntWritable. class); 


FileInputFormat.addInputPath(job, new Path(args[0])); 


FileOutputFormat. setOutputPath(job, new Path(args[1])); 


System. exit( job. waitForCompletion(true) ? 0 : 1); 











WordCount 运行 示意 图 如 图 6-5 所 示 。 





T 
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MapReduce WordCount Example 





Reduce(K, VD){ 


Seay 
Map Output Int count=0; 


For each v in V 





count += V; 


«Hello, 17 
ZWorld, 1> Collect(K. count): 


<Bye, 1> = 1 
World. 1> Internal Grouping J 











«Bye — 1.1.1> 


«Hello, 1> | Reduce 
<Hadoop, 1> | 
<Bye, 1> 
<Hadoop, 1> 


p 


Reduce Output 





<Hadoop— reme 

Reduce Byes 

Hadoop, 4> 
<Hello, 3> 
«World, 2: 


"Sau 


<Bye, 1> PER OS 
<Hadoop, 1> 0 L 
<Hello, 1> 
<Hadoop, 1> 


Reduce 








Ul 





*World- 1.17 [Reduce 
p. educe 











5 WordCount 运行 过 程 





在 终端 环境 中 运行 以 下 命令 


bin/hadoop jar /home/qzhong/hadoop - 0. 0. 1. jar alibook. hadoop. WordCount /user/qzhong/| 
input /user/qzhong/output 





输入 数据 存放 在 HDFS 集群 和 


,如 图 6-6 所 示 





liujun supergroup 2016 8 /user/qzhong/input/capacity-scheduler.xml 
liujun supergroup 2016 a /user/qzhong/input/configuration .xst 
liujun supergroup 2016-1 p /user/qzhonq/input/container-executor.cfq 
liujun supergroup 58 2016 /user/qzhong/input/core-site.xml 

liujun supergroup 2916-1 8 /user/qzhong/input/deliver.exp 

liujun supergroup 2016 /user/qzhong/input/deliver.sh 

liujun supergroup 2016 /user/qzhong/input/deliver list 

liujun supergroup 2016 /user/qzhong/input/hadoop-env.cmd 

liujun supergroup 2016 /user/qzhong/input/hadoop-env.sh 

Liujun supergroup 9 2016 /user/qzhong/input/hadoop -met rics .properti 
Liujun rgroup 2598 2016 a /user/qzhong/input/hadoop-metrics2. properties 
Liujun supergroup 9683 2016-1 0:28 /user/qzhong/input/hadoop-policy . xml 
liujun supergroup 1580 2016 /user/qzhong/input/hdfs-site. xml 

liujun supergroup 1449 ] /user/qzhong/input/httpfs-env.sh 

Liujun supergroup 1657 /user/qzhong/input/httpfs-log4j .prope 
liujun supergroup 21 2016 /user/qzhong/input/httpfs-signature.s 
liujun supergroup 620 p /user/qzhong/input/httpfs-site. xml 

Liujun supergroup 523 /user/qzhong/input/kms -acls . xml 

liujun supergroup 1325 00:28 /user/qzhong/input/kms -env.sh 

liujun supergroup 1631 /user/qzhong/input/kms-1094j .properties 
Liujun supergroup 5511 /user/qzhong/input/kms -site. xml 

liujun supergroup 11291 9, /user/qzhong/input/log4j.propertie 

liujun supergroup 938 /user/qzhong/input/mapred-env.cmd 

liujun supergroup 1383 2016 /user/qzhong/input/mapred-env.sh 

liujun supergroup 4113 2016-1 /user/qzhong/input/mapred-queues . xml. template 





图 6-6 WordCount 输入 数据 





图 6-7 所 示 


运算 结果 。 





-个 part-r-00000 文件 ,保存 
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图 6-7 WordCount 运行 结果 


6.4.2 WordMean 


下 面 对 WordCount 稍 作 修改 , 改 成 计算 所 有 文件 中 单词 的 平均 长 度 , 单 词 长 度 的 定 
义 是 单词 的 字符 个 数 。 现 在 HDFS 集群 中 有 大 量 的 文件 ,需要 统计 所 有 文件 中 所 出 现 单 
词 的 平均 长 度 。 

其 处 理 也 可 以 采用 MapReduce 方式 ,计算 结果 最 后 以 HDFS 文件 的 方式 保存 ,保存 
内 容 格式 为 两 行 数据 : 第 一 行 是 < count, 个 数 ` 键 - 值 对 ,为 统计 出 现 的 所 有 单词 个 数 ; 第 
二 行 是 < length, 总 长 度 > 键 - 值 对 ,为 统计 文件 中 所 有 的 单词 长 度 。 然 后 从 HDFS 文件 中 
读 取 MapReduce 计算 结果 , 求 取 单词 长 度 的 平均 值 。 在 MapReduce 计算 过 程 中 ,Map 
阶段 读 取 每 个 文件 的 split 数据 ,生成 < count,1 > 和 < length, 单 词 长 度 > 键 - 值 对 ;， Reduce 
阶段 对 相同 的 count 关键 字 和 length 关键 字 对 进行 求 和 。 下 面 是 Map 过 程 和 Reduce 过 
程 的 代码 ,详细 的 代码 可 以 从 GitHub 上 下 载 (https://github. com/alibook/alibook 





bigdata. git), 
Map 端 对 应 的 代码 如 下 





/ xx 
* Maps words from line of text into 2 key-value pairs; 
* one key- value pair for 
* counting the word, another for counting its length. 
*/ 
public static class WordMeanMapper extends Mapper < 0bject, Text, Text, LongWritable> { 


private LongWritable wordlen = new LongWritable(); 


/ «x 
* Emits 2 key - value pairs for counting the word and its 
* length. Outputs are(Text, LongWritable). 
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* @paran value 
* This will be a line of text coming in from our input file. 
x/ 
public void map(Object key, Text value, Context context) 
throws IOException, InterruptedException ( 
StringTokenizer iter - new StringTokenizer(value. toString()); 
while (iter.hasMoreTokens()) ( 
wordlen. set( iter. nextToken( ). length()); 
context.write(LENGTH, wordlen); 
context. write(COUNT, ONE); 


Reduce 端 对 应 的 代码 如 下 。 


/xx 
# Performs integer summation of all the values for each key. 
*/ 
public static class WordMeanReducer extends Reducer < Text, LongWritable, 
LongWritable> { 
private LongWritable sum = new LongWritable(0); 


[+x 
* Sums all the individual values within the iterator and writes 
* them to the same key. 
* 
* @param key 
* This will be one of 2 constants: LENGTH STR or COUNT STR. 
* @param values 
* This will be an iterator of all the values associated with that 
* key. 
*/ 
public void reduce( Text key, Iterable<LongWritable> values, Context context) 
throws IOException, InterruptedException { 
int theSum = 0; 
for (LongWritable value : values) { 
theSum += value. get(); 





Text, 
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} 
Sum. set(theSum) ; 


context. write(key, sum); 





在 终端 运行 以 下 命令 。 





bin/hadoop jar /home/qzhong/wordmean - 0. 0. 1. jar \ alibook. wordmean. WordMean /user/ 


qzhong/input N /user/qzhong/wordmeanoutput 











上 述 命令 表示 在 文件 中 计算 单词 的 平均 长 度 , 计 算 结 果 输 出 到 /user/qzhong/ 
验 中 采用 和 WordCount 同样 的 实验 数据 ,运行 结果 如 下 





wordmeanoutput 中 。 在 该 


所 示 。 





图 6-8 是 WordMean 运行 MapReduce 产生 的 计算 结果 。 


[liujun@dell122 hadoop-2.6.4]$ bin/hdfs dfs -cat /user/qzhong/wordmeanoutput/part-r-00000 


n/hdfs /part-r-00000 
wordmeanoutput/part - r-00000 





图 6-8 WordMean 计算 结果 
6.4.3 Grep 


是 进行 大 规模 文本 中 单词 的 相关 操作 ,现在 希望 提供 类 似 Linux 系统 中 Grep 命 

令 的 功能 , 找 出 匹配 目标 串 的 所 有 文件 ,并 统计 出 每 个 文件 中 出 现 目 标 字符 串 的 个 数 。 

仍然 采用 MapReduce 的 计算 方法 提取 出 匹配 目标 字符 串 的 所 有 文件 。 思 路 很 简 
单 ,在 Map 阶段 根据 提供 的 文件 split 信息 、 给 定 的 每 个 字符 串 输出 < filename. 1 > 这 样 
的 键 - 值 对 信息 ; 然后 在 Reduce 阶段 根据 filename 对 Map 阶段 产生 的 结果 进行 合并 ,最 
后 得 出 匹配 目 uB 的 所 有 文件 grep 信息 。 

下 面 是 对 应 的 Map 端 和 Reduce 端 代码 ,详细 的 可 运行 代码 从 GitHub 上 下 载 
(https: //github. com/alibook/alibook-bigdata. git) 。 

Map 端 代码 如 下 。 





94 











public static class GrepMapper extends Mapper < 0bject, Text, Text, IntWritable> { 


public void map(Object obj, Text text, Context context) 
throws IOException, InterruptedException { 
String pattern = context. getConf iguration().get("grep") ; 


String str = text. toString(); 
Pattern r = Pattern. compile(pattern) ; 


Matcher matcher = r.matcher(str) ; 


while (matcher. find()) { 
FileSplit split = (FileSplit)context.getInputSplit(); 
String filename = split. getPath().getName(); 


context. write(new Text(filename), new IntWritable(1)); 


Reduce 端 代码 如 下 。 


public static class GrepReducer extends Reducer < Text, IntWritable, Text, IntWritable> { 


public void reduce(Text text, Iterable<IntWritable> values, Context context) 
throws IOException, InterruptedException{ 
int sum = 0; 
Iterator <IntWritable> iterator = values. iterator(); 
while (iterator. hasNext()) { 


sum += iterator. next().get(); 


context. write(text, new IntWritable(sum)) ; 











bin/hadoop jar /home/qzhong/grep - 0.0.1. jar alibook. grep. Grep hadoop /user/qzhong/ input 
/user/qzhong/grepout put 
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上 述 命令 是 在 所 有 输入 文件 中 找 出 匹配 Hadoop 字符 串 的 所 有 文件 ,并 将 计算 结 
输出 到 /user/qzhong/grepoutput 目录 中 。 
该 命令 的 运行 结果 如 图 6-9 所 示 。 





capacity-scheduler.xml 1 
core-site.xml 6 
hadoop-env.cmd 5 
hadoop-env.sh 7 
hadoop-metrics.properties 
hadoop-metrics2.properties 
hdfs-site.xml 4 
httpfs-log4j.properties 2 


httpfs-signature.secret 1 
kms - acls . xml 9 


kms -10g4j .properties 2 
kms-site.xml 19 
log4j .properties 82 
mapred-env.sh 1 
yarn-env.cmd 5 
yarn-env.sh 4 
yarn-site.xml 1 





图 6-9 Grep 的 运行 结果 


6.5 MapReduce 的 缺陷 与 不 足 


MapReduce 是 一 种 离线 处 理 框 架 ,比较 适合 大 规模 的 离线 数据 处 理 。 在 实际 的 工作 
环境 中 ,MapReduce 这 套 分 布 式 处 理 框 架 常 用 于 分 布 式 Grep、 分 布 式 排序 、Web 访问 日 
志 分 析 、 反 向 索引 构建 ,文档 聚 类 、 机 器 学 习 、 数 据 分 析 、 基 于 统计 的 机 器 翻译 和 生成 整个 
搜索 引擎 的 索引 等 大 规模 数据 处 理工 作 。 但 是 MapReduce 在 实时 处 理性 能 方面 比较 薄 
弱 , 不 适合 处 理事 务 或 者 单一 处 理 请 求 


1. 简 述 MapReduce 架构 。 

2. 简 述 MapReduce 与 网 格 计算 、 高 效能 计算 之 间 的 区 别 。 

3. 简 述 MapReduce 中 的 Shuffle 过 程 

4， 在 MapReduce 中 为 什么 需要 建立 Speculative Task? 会 带 来 哪些 问题 ? 
5. 简 述 MapReduce 的 不 足 。 


Spark 解 析 


7.1 Spark RDD 


Spark 是 一 个 高 性 能 的 内 存 分 布 式 计算 框架 ,具备 可 扩展 性 、 任 务 容 错 等 特性 。 每 个 
Spark 应 用 都 是 由 一 个 driver program 构成 ,该 程序 运行 用 户 的 main 函数 ,同时 在 一 个 
集群 中 的 节点 上 运行 多 个 并 行 操作 。Spark 提供 的 一 个 主要 抽象 就 是 RDD(Resilient 
Distributed Datasets) ,这 是 一 个 分 布 在 集群 中 多 节点 上 的 数据 集合 ,利用 内 存 和 磁盘 作 
为 存储 介质 ,其 中 内 存 为 主要 数据 存储 对 象 ,支持 对 该 数据 集合 的 并 发 操作 。 用 户 可 以 
使 用 HDFS 中 的 一 个 文件 来 创建 一 个 RDD, 可 以 控制 RDD 存放 于 内 存 中 还 是 存储 于 磁 
盘 等 永久 性 存储 介质 中 。 

RDD 的 设计 目标 是 针对 迭代 式 机 器 学 习 。 由 于 迭代 式 机 器 学 习 本 身 的 特点 ,每 个 
RDD 是 只 读 的 ,不 可 更 改 的 。 根 据 记 录 的 操作 信息 ,丢失 的 RDD 数据 信息 可 以 从 上 游 
的 RDD 或 者 其 他 数据 集 Datasets 创建 ,因此 RDD 提供 容错 功能 。 

有 两 种 方式 创建 一 个 RDD: 在 driver program 中 并 行 化 一 个 当前 的 数据 集合 ; 或 者 
利用 一 个 外 部 存储 系统 中 的 数据 集合 创建 ,比如 共享 文件 系统 HDFS ,或 者 HBase, 或 者 
其 他 任何 提供 了 Hadoop InputFormat 格式 的 外 部 数据 存储 。 


1. 并 行 化 数据 集合 (Parallelized Collection) 


并 行 化 数据 集合 可 以 在 driver program 中 调用 JavaSparkContext’s parallelize 方法 
创建 ,复制 集合 中 的 元 素 到 集群 中 形成 一 个 分 布 式 的 数据 集 Distributed Datasets. LAF 
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是 一 个 创建 并 行 化 数据 集合 的 例子 ,包含 数字 1 一 5: 





List< Integer > data = Arrays.asList(1, 2, 3, 4, 5); 








JavaRDD < Integer > distData = sc.parallelize(data); 





一 旦 上 述 的 RDD 创建 ,分 布 式 数据 集 RDD 就 可 以 并 行 操作 了 。 例 如 可 以 调用 
distData. reduce((a, b) 一 > a + b) 对 列表 中 的 所 有 元 素 求 和 。 


2. 外 部 数据 集 (External Datasets) 


Spark 可 以 从 任何 Hadoop 支持 的 外 部 数据 源 创建 RDD, 包 括 本 地 文件 系统 、 
HDFS Cassandra, HBase, Amazon S3 等 。 以 下 是 从 一 个 文本 文件 中 创建 RDD 的 例子 : 


JavaRDD < String> distFile = sc.textFile("data. txt"); 





一 旦 创建 ,distFile 就 可 以 执行 所 有 的 数据 集 操作 。 

RDD 支持 多 种 操作 ,分 为 下 面 两 种 类 型 : 

(1) transformation。 其 用 于 从 以 前 的 数据 集中 创建 一 个 新 的 数据 集 。 

(2) action。 其 返回 一 个 计算 结果 给 driver program。 

在 Spark 中 所 有 的 transformation 都 是 懒惰 的 (lazy) ,因为 Spark 并 不 会 立即 计算 结 
果 ,Spark 仅仅 记录 所 有 对 file 文件 的 transformation。 以 下 是 一 个 简单 的 transformation 的 
例子 : 


JavaRDD < String> lines = sc.textFile("data.txt"); 


JavaRDD < Integer > lineLengths = lines.map(s 一 > s.length()); 
int totalLength = lineLengths.reduce((a, b) ->a + b); 





利用 文本 文件 data. txt 创建 一 个 RDD, 然 后 利用 lines 执行 Map 操作 ,这 里 lines 其 
实 是 一 个 指针 ,Map 操作 计算 每 个 string 的 长 度 ,最 后 执行 reduce action, 这 时 返回 整个 
文件 的 长 度 给 driver program, 





7.2 Spark 与 MapReduce 的 对 比 


Spark 作为 新 一 代 的 大 数据 计算 框架 ,针对 的 是 迭代 式 计 算 、 实 时 数据 处 理 , 要 求 处 
理 的 时 间 更 少 。 与 MapReduce 对 比 整体 反映 如 下 : 
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CD 在 中 间 计 算 结 果 方面 。Spark 要 求 计算 结果 快速 返回 ,处 理 任 务 低 延 迟 ,因此 
Spark 基本 把 数据 存放 在 内 存 中 ,只 有 在 内 存 资源 不 够 的 时 候 才 写 到 磁盘 等 存储 介质 中 ， 
同时 用 户 可 以 指定 数据 是 否 缓存 在 内 存 中 ; 而 MapReduce 计算 过 程 中 Map 任务 产生 的 
计算 结果 存放 到 本 地 磁盘 中 ,由 后 面 需要 计算 的 Reduce 任务 fetch, 

(2) 在 计算 模型 方面 。Spark 采用 DAG 图 描述 计算 任务 ,所 有 的 RDD 操作 最 后 都 
采用 DAG 描述 ,然后 优化 分 发 到 各 个 计算 节点 上 运行 ,因此 Spark 拥有 更 丰富 的 功能 ; 
MapReduce 则 只 采用 Map 和 Reduce 两 个 函数 ,计算 功能 比较 简单 。 

(3) 在 计算 速度 方面 。Spark 采用 内 存 作为 计算 结果 主要 存储 介质 ,而 MapReduce 
采用 本 地 磁盘 作为 中 间 结 果 存 储 介质 ,因此 Spark 的 计算 速度 更 快 。 

(4) 在 容错 方面 。Spark 采用 了 和 MapReduce 类 似 的 方式 ,针对 丢失 和 无 法 引用 的 
RDD, Spark 采用 利用 记录 的 transformation, 采 取 重 新 做 已 做 过 的 transformation, 

(5) 在 计算 成 本 方面 。Spark 是 把 RDD 主要 存放 在 内 存 存储 介质 中 ,如 果 需 要 快速 
地 处 理 大 规模 数据 , 则 需要 提供 高 容量 的 内 存 ; 而 MapReduce 是 面向 磁盘 的 分 布 式 计算 
框架 ,因此 在 成 本 考虑 方面 ,Spark 的 计算 成 本 高 于 MapReduce 计算 框架 。 

(6) 在 简单 易 管理 方面 。 目 前 Spark 也 在 同一 个 集群 上 运行 流 处 理 、 批 处 理 和 机 器 
学 习 , 同 时 Spark 也 可 以 管理 不 同类 型 的 负载 。 这 些 都 是 MapReduce 做 不 到 的 。 


7.3 Spark 的 工作 机 制 


下 面 开始 深入 探讨 Spark 的 内 部 工作 原理 ,具体 包括 Spark 运行 的 DAG 图 、 
Partition, 容错 机 制 、 缓 存 管理 以 及 数据 持久 化 。 


7.3.1 DAG 工作 图 


应 用 程序 提交 给 Spark 运行 ,通过 生成 RDD DAG 的 方式 描述 Spark 应 用 程序 的 
PH. 

DAG 是 有 向 无 环 图 ,是 图 论 里 面 的 概念 ,可 以 用 图 G—« V, E > 来 描述 ,E 中 的 边 都 
是 有 向 边 ,顶点 之 间 构 成 依赖 关系 .并 且 不 能 形成 环 路 。 当 用 户 运行 action 操作 的 时 候 ， 
Spark 调度 器 检查 RDD 的 lineage 图 ,生成 一 个 DAG 图 ,最 后 根据 这 个 DAG 图 来 分 配 
任务 执行 。 

为 了 Spark 更 加 高 效 的 调度 和 计算 ,RDD DAG 中 还 包括 了 宽 依赖 和 窜 依 赖 。 窄 依 
MALTA RDD 中 的 分 区 最 多 只 被 子 节点 RDD 中 的 一 个 分 区 使 用 ; 而 宽 依赖 是 父 节点 
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RDD 中 的 分 区 被 子 节点 RDD 中 的 多 个 子 分 区 使 用 ,如 图 7-1 所 示 。 





Narrow Dependencies: Wide Dependencies: 
@ 
map, filter groupBykey 











join with inputs 
Ly co-partitioned 





join with inputs not 
co-parttioned 





图 7-1 7S ARR A A Wa 


如 图 7-1 所 示 ,map 建立 的 RDD 中 的 每 个 分 区 Partition 只 被 子 节点 filter RDD 中 
的 一 个 子 分 区 使 用 ,所 以 是 罕 依 赖 ; 而 groupByKey 建立 的 RDD 多 个 子 分 区 Partition 引 
用 一 个 父 节 点 RDD 中 的 分 区 。 

图 7-2 所 示 为 Spark 集群 中 一 个 应 用 程序 的 执行 ,生成 了 一 个 DAG 图 。 





图 7-2 Spark 应 用 程序 的 执行 


Spark 调度 器 根据 RDD 中 的 宽 依赖 和 窄 依赖 形成 stage 的 DAG 图 ,如 图 7-2 所 示 。 
每 个 stage 是 包含 尽 可 能 多 的 窗 依 赖 的 流水 线 transformation, 
采用 DAG 方式 描述 运行 逻辑 ,可 以 描述 更 加 复杂 的 运算 功能 ,也 有 利于 Spark 调度 


7.3.2 Partition 


Spark 执行 每 次 操作 transformation 都 会 产生 一 个 新 的 RDD, 每 个 RDD 是 Partition 
分 区 的 集合 。 在 Spark 中 ,操作 的 粒度 是 Partition 分 区 ,所 有 针对 RDD 的 map, filter 等 
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操作 ,最 后 都 转换 成 对 Partition 的 操作 ,每 个 Partition 对 应 一 个 Spark task. 
当前 支持 的 分 区 方式 有 hash 分 区 和 范围 (range) 分 区 。 


7.3.3 Lineage 容错 方法 


在 容错 方面 有 多 种 方式 ,包括 数据 复制 以 及 记录 修改 日 志 。 但 是 由 于 Spark 采用 
DAG 描述 driver program 的 运算 逻辑 ,因此 Spark RDD 采用 一 种 称 为 Lineage 的 容错 方 
法 。 

RDD 本 身 是 一 个 不 可 更 改 的 数据 集 ,Spark 根据 transformation 和 action 构建 它 的 
操作 图 DAG, 因 此 当 执行 任务 的 Worker 失败 时 完全 可 以 通过 操作 图 DAG 获得 之 前 执 
行 的 操作 ,进行 重新 计算 。 由 于 无 须 采 用 replication 方式 支持 容错 ,很 好 地 降低 了 跨 网 
络 的 数据 传输 成 本 。 

不 过 ,在 某 些 场景 下 Spark 也 需要 利用 记录 日 志 的 方式 来 支持 容错 。 针 对 RDD 的 
wide dependency. 最 有 效 的 容错 方式 同样 是 采用 checkpoint 机 制 。 当 前 ,Spark 并 没有 
引入 auto checkpointing 机 制 。 


7.3.4 内 存 管理 


旧版 本 Spark(1.6 之 前 ) 的 内 存 空间 被 分 成 了 3 块 独立 的 区 域 ,每 块 区 域 的 内 存 容 
量 是 按照 JVM 堆 大 小 的 固定 比例 进行 分 配 的 : 
* Execution。 在 执行 shuffle ,join .sort 和 aggregation 时 ,Execution 用 于 缓存 中 间 
数据 ,通过 spark. shuffle. memoryFraction 进行 配置 ,默认 为 0.2。 
* Storage, Storage 主要 用 于 缓存 数据 块 以 提高 性 能 ,同时 也 用 于 连续 不 断 地 广播 
或 发 送 大 的 任务 结果 ,通过 spark. storage. memoryFraction 进行 配置 ,默认 为 
0.6。 
* Other。 这 部 分 内 存 用 于 存储 运行 Spark 系统 本 身 需 要 加 载 的 代码 与 元 数据 , 默 
认为 0. 2。 
无 论 是 哪个 区 域 的 内 存 , 只 要 内 存 的 使 用 量 达 到 了 上 限 , 则 内 存 中 存储 的 数据 就 会 
被 放 人 到 硬盘 中 ,从 而 清理 出 足够 的 内 存 空间 。 这 样 , 由 于 和 执行 或 存储 相关 的 数据 在 
内 存 中 不 存在 ,就 会 影响 到 整个 系统 的 性 能 .导致 /O 增长 ,或 者 重复 计算 。 


1. Execution 内 存 管 理 


Execution 内 存 进一步 为 多 个 运行 在 JVM 中 的 任务 分 配 内 存 。 与 整个 内 存 分 配 的 
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方式 不 同 , 这 块 内 存 的 再 分 配 是 动态 分 配 的 。 在 同一 个 JVM 下 ,如 果 当 前 仅 有 一 个 任务 
正在 执行 , 则 它 可 以 使 用 当前 可 用 的 所 有 Execution 内 存 。 

Spark 提供 了 以 下 Manager 对 这 块 内 存 进行 管理 : 

。 ShuffleMemoryManager。 它 扮演 了 一 个 中 央 决 策 者 的 角色 ,负责 决定 分 配 多 少 
内 存 给 哪些 任务 。 一 个 JVM 对 应 一 个 ShuffleMemoryManager。 
TaskMemoryManager。 它 记录 和 管理 每 个 任务 的 内 存 分 配 ,实现 为 一 个 page 
table, 用 于 跟踪 堆 (heap) 中 的 块 , 侦 测 异常 抛 出 时 可 能 导致 的 内 存 泄露 。 在 其 内 
部 调用 了 ExecutorMemoryManager 去 执行 实际 的 内 存 分 配 与 内 存 释 放 。 一 个 
任务 对 应 一 个 TaskMemoryManager。 

ExecutorMemoryManager。 其 用 于 处 理 on-heap 和 off-heap 的 分 配 , 实 现 为 弱 引 
用 的 池 人 允许 被 释放 的 page 可 以 被 跨 任 务 重用 。 一 个 JVM 对 应 一 个 
ExecutorMemeory Manager, 

内 存 管 理 的 执行 流程 大 致 如 下 : 

当 一 个 任务 需要 分 配 一 块 大 容量 的 内 存 用 于 存储 数据 时 , 首先 会 请 求 
ShuffleMemoryManager, 告 知 "我 想 要 X 个 字 节 的 内 存 空间 ”。 如 果 请 求 可 以 被 满足 , 则 
任务 就 会 要 求 TaskMemoryManager 分 配 X 个 字 节 的 空间 。 — H. TaskMemoryManager 
更 新 了 它 内 部 的 page table, 就 会 要 求 ExecutorMemoryManager 去 执行 内 存 空间 的 实际 
分 配 。 

这 里 有 一 个 内 存 分 配 的 策略 。 假 定 当前 的 active task 数据 为 N, 那 么 每 个 任务 可 以 
从 ShuffleMemoryManager 处 获得 多 达 1/N 的 执行 内 存 。 分 配 内 存 的 请 求 并 不 能 完全 
得 到 保证 ,例如 内 存 不 足 , 这 时 任务 就 会 将 它 自 身 的 内 存 数 据 释 放 。 根 据 操作 的 不 同 , 任 
务 可 能 重新 发 出 请 求 , 又 或 者 尝试 申请 小 一 点 的 内 存 块 。 


2. Storage 的 存储 管理 


Storage 内 存 由 更 加 通用 的 BlockManager 管理 。 如 前 所 说 , Storage 内 存 的 主要 功 
能 是 用 于 缓存 RDD Partitions ,也 用 于 将 容量 大 的 任务 结果 传播 和 发 送 给 driver。 

Spark 提供 了 Storage Level 来 指定 块 的 存放 位 置 Memory Disk 或 者 Off-Heap, 
Storage Level 还 可 以 指定 存储 时 是 否 按照 序列 化 的 格式 。 当 Storage Level 被 设置 为 
MEMORY. AND. DISK, SER 时 ,内 存 中 的 数据 以 字 节 数组 (byte array) 形 式 存储 , 当 这 
些 数 据 被 存储 到 硬盘 中 时 ,不 再 需要 进行 序列 化 。 若 设置 为 该 Level, 则 evict 数据 会 更 
加 高 效 。 

到 了 1.6 fA. Execution Memory 和 Storage Memory 之 间 支 持 跨 界 使 用 。 当 执行 
内 存 不 够 时 可 以 借用 存储 内 存 , 反 之 亦 然 。 
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7.3.5 数据 持久 化 





Spark 最 重要 的 一 个 功能 是 它 可 以 通过 各 种 操作 (operation) 持 久 化 (或 者 缓存 ) 一 个 
集合 到 内 存 中 。 当 用 户 持久 化 一 个 RDD 的 时 候 , 每 一 个 节点 都 将 参与 计算 的 所 有 分 区 
数据 存储 到 内 存 中 ,并 且 这 些 数据 可 以 被 这 个 集合 (以 及 这 个 集合 衍生 的 其 他 集合 ) 的 动 
作 (action) 重 复 利 用 。 这 个 能 力 使 后 续 的 动作 速度 更 快 (通常 快 10 倍 以 上 )。 对 应 迭代 
算法 和 快速 的 交互 使 用 来 说 ,缓存 是 一 个 关键 的 工具 。 

用 户 能 通过 persist() 或 者 cache() 方 法 持久 化 一 个 RDD。 首 先 在 action 中 计算 得 到 
RDD; 然后 将 其 保存 在 每 个 节点 的 内 存 中 。Spark 的 缓存 是 一 个 容错 的 技术 ,如 果 RDD 
的 任何 一 个 分 区 丢失 , 它 可 以 通过 原 有 的 转换 (transformation) 操 作 自动 地 重复 计算 并 且 
创建 出 这 个 分 区 。 

此 外 ,用 户 可 以 利用 不 同 的 存储 级 别 存储 每 一 个 被 持久 化 的 RDD。 


7.4 数据 的 读 取 


Spark 支持 多 种 外 部 数据 源 来 创建 RDD. Hadoop 支持 的 所 有 格式 Spark 都 支持 。 
7.4.1 HDFS 


HDFS 是 一 个 分 布 式 文件 系统 ,其 目标 就 是 运行 在 廉价 的 服务 器 上 。HDFS 和 
Hadoop MapReduce 构成 了 一 整套 的 运行 环境 。Spark 可 以 很 好 的 支持 HDFS。 在 
Spark 下 要 使 用 HDFS 集群 中 的 文件 需要 更 改 对 应 的 配置 文件 ,把 Hadoop 中 的 hdfs- 
site. xml 和 core-site. xml 复制 到 Spark 的 conf 目录 下 ,这 样 就 可 以 像 使 用 普通 的 本 地 文 
件 系统 中 的 文件 一 样 使 用 HDFS 中 的 文件 了 。 


7.4.2 Amazon S3 


Amazon S3 提供 了 对 象 存 储 服务 ,目前 使 用 广泛 。Spark 提供 了 针对 S3 的 文件 输入 
服务 支持 。 为 了 可 以 在 Spark 应 用 中 读 取 和 存储 数据 到 S3 中 ,可 以 使 用 Hadoop 文件 
API ( SparkContext. hadoopFile, JavaHadoopRDD. saveAsHadoopFile, SparkContext. 
newAPIHadoopRDD 和 JavaHadoopRDD. saveAsNewAPIHadoopFile) 3€ j£ fil 3 RDD. 
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用 户 可 以 采用 以 下 方式 来 做 Word Count 应 用 : 





scala» val sonnets = sc.textFile("s3a://s3 - to- ec2/sonnets. txt") 
scala? val counts = sonnets. flatMap( line => line. split(" ")). map(word =>(word, 1)). 
reduceByKey(__+ _) 


scala> counts. saveAsTextF ile("s3a://s3 - to - ec2/output" ) 





7.4.3 HBase 


HBase 是 一 个 列 数据 库 , 一 种 NoSQL, 支 持 CRUD 操作 ,具有 容错 、 高 可 用 、 高 可 扩展 以 
及 高 吞吐 量 等 特点 。Spark 也 支持 HBase 的 读 取 和 写 人 操作 。 在 采用 Spark 写 人 到 HBase 
的 过 程 中 需要 用 到 PairRDDFunctions. saveAsHadoopDataset; 在 采用 Spark 读 取 HBase 中 
的 数据 的 时 候 需要 用 到 使 用 SparkContext 提供 的 newAPIHadoopRDDAPI 将 表 的 内 容 
以 RDDs 的 形式 加 载 到 Spark 中 。 


7.5 应 用 案例 


7.5.1 日 志 挖 气 


采用 Spark 针对 日 志文 件 进行 数据 分 析 。 根 据 Tomcat 日 志 计 算 URL 访问 情况 。 
区 别 于 统计 GET 和 POST URL 访问 量 ,其 要 求 输出 结果 (访问 方式 .URL ,访问 量 )。 以 
下 是 简单 的 测试 数据 集 样 例 : 





196.168.2.1 — - [03/Jul/2014: 23:57:42 + 0800] "GET /html/notes/20140620/872. html 
HTTP/1.0" 200 52373 0.034 
196.168.2.1 - - [03/Jul/2014:23:58:17 + 0800] "POST /service/notes/addViewTimes_900. 
htm HTTP/1.0" 200 2 0.003 
196.168.2.1 - - [03/Jul/2014:23:58:51 + 0800] "GET /html/notes/20140617/888. html 
HTTP/1.0" 200 70044 0.057 





为 了 达到 对 应 的 日 志 分 析 结果 ,编写 以 下 Spark 代码 : 





//textFile() 加 载 数据 


val data = sc.textFile("/spark/seven. txt") 
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//filter 过 滤 长 度 小 于 0, 过 滤 不 包含 GET 与 POST 的 URL 
val filtered = data. filter(_.length()> 0). filter( line => (line. indexOf("GET")> 0 | | 
line. indexOf("POST")>0) ) 


// 转 换 成 键 一 值 对 的 操作 

val res = filtered.map( line =>{ 

if(line. indexOf ("GET") 0){ // OR. GET 到 URL 的 字符 串 

(line. substring(line. indexOf ( "GET" ), line. indexOf (" HTTP/1. 0") ) trim, 1) 
Jelse{ // 截 取 POST 到 URL 的 字符 串 

(line. substring(line. indexOf("POST"), line. indexOf("HTTP/1.0")).trim,1) 
} // 通 过 reduceByKey R sum 

}) . reduceByKey(_+ _) 


// lih J£ action 事件 执行 


res, collect() 








运行 结果 输出 样 例如 下 : 


(POST /service/notes/addViewTimes_779. htm,1), 
(GET /service/notes/addViewTimes_900.htm,1), 
(POST /service/notes/addViewTimes_900.htm,1), 
(GET /notes/index- top- 3.htm,1), 

(GET /html/notes/20140318/24.html,1), 

(GET /html/notes/20140609/544. html,1), 

(POST /service/notes/addViewTimes_542. htm, 2) 








7.5.2 判别 西瓜 好 坏 


西瓜 是 一 种 人 们 都 很 喜欢 的 水 果 , 是 盛夏 季节 的 一 种 解 暑 物品 。 西 瓜分 为 好 瓜 和 
坏 瓜 , 我 们 都 希望 购买 到 的 西瓜 是 好 的 。 这 里 给 出 判断 西瓜 好 坏 的 两 个 特征 ,一 个 特 
征 是 西瓜 的 糖度 ,另外 一 个 特征 是 西瓜 的 密度 ,这 两 个 数值 都 是 0 一 1 的 小 数 。 每 个 西 
瓜 的 好 坏 用 数值 来 表示 .1 表示 好 瓜 .0 表示 坏 瓜 。 基 于 西瓜 的 测试 数据 集 来 判断 西瓜 
的 好 坏 。 

Spark 中 提供 了 MLib 机 器 学 习 库 ,使 用 MLib 机 器 学 习 库 中 提供 的 例子 .采用 GBT 
模型 ,训练 参数 ,最 后 利用 训练 集 测试 GBT 模型 的 好 坏 ,判断 西瓜 的 准确 度 。 
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详细 的 代码 可 以 从 GitHub F F 4% (https: //github. com/alibook/alibook-bigdata. 
gi ,下 面 是 利用 Spark GBT 模型 的 代码 ; 





object SparkGBT { 
def main (args: Rrray[ String]) { 

if (args. length < 0) ( 
println("Usage:FilePath") 
sys.exit(1) 

i 

// 初 始 化 

val conf = new SparkConf().setAppName("Spark ML1ib Exercise: GradientBoostedTree") 


val sc = new SparkContext(conf) 


// 数 据 文件 加 载 和 分 析 

val data = MLUtils. loadLibSVMFile(sc, "/home/liujun/workplace/scala GBT/GBT data. txt") 
// 数 据 拆 分 为 训练 集 和 测试 集 (30% 测试 ) 

val splits = data.randomSplit(Array(0.7, 0.3)) 

val (trainingData, testData) = (splits(0), splits(1)) 


// 训 练 GBT 模型 

// 默 认 情况 下 , defaultParams 分 类 使 用 LogLoss 

val boostingStrategy = BoostingStrategy. defaultParams("Classification" ) 
boostingStrategy. numIterations = 10 // 注 意 : 在 实践 中 使 用 多 个 迭代 
boostingStrategy. treeStrategy. numClasses = 2 

boostingStrategy. treeStrategy.maxDepth = 3 

// 空 categoricalFeaturesInfo 指示 所 有 功能 是 连续 的 

boostingStrategy. treeStrategy. categoricalFeaturesInfo = Map[Int, Int]() 


val model = GradientBoostedTrees. train(trainingData, boostingStrategy) 


// 评 估 测 试 实例 和 试验 误差 的 计算 模型 
val labelAndPreds = testData.map { point => 
val prediction = model.predict(point. features) 
(point. label, prediction) 
} 
val testErr = labelAndPreds.filter(r => r. 1 != r._2). count. toDouble / testData. 
count() 
println("Test Error = " + testErr) 
println("Learned classification GBT model:\n" + model. toDebugString) 
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labelAndPreds. collect().foreach(x => 
println("Lable and Prediction: " + x._1.toString + "" + x. 2.toString)) 
trainingData. saveAsTextFile("/home/liujun/workplace/scala GBT/trainingData") 


testData. saveAsTextFile("/home/1liujun/workplace/scala  GBT/testData" ) 








端 上 运行 以 下 命令 ,在 具体 的 环境 中 需要 修改 对 应 的 文件 路 径 名 字 ; 











build. sbt // 设 置 好 sbt 
sbt package exit // 运 用 sbt 将 文件 打包 
spark - 2. 0. 0 - bin - hadoop2. 6/bin/spark - submit - - master local - - class 


SparkClustering target/scala - 2. ll/sparkclustering 2. 11 - 1. 0. jar /home/liujun/ 
workplace/scala Clustering/cluster 


// 最 后 提交 到 Spark 集群 上 运行 





测试 结果 及 运行 如 图 7-3 和 图 7-4 所 示 


Test Error = 


Learned classification model: 


TreeEnsembleModel classifier with 10 trees 





3 GBT 测试 结果 
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7.6 Spark 的 发 展 趋势 


Spark 诞生 于 伯克利 AMP 实验 室 ,起 初 是 一 个 研究 性 质 的 项 目 , 目 标 是 为 多 代 式 机 
器 学 习 提 供 帮 助 。 随 着 Spark 的 开源 ,因为 其 采用 内 存 存储 ,计算 速度 比 MapReduce 更 
快 , 而 且 Spark 简单 . 易 用 ,受到 了 众多 人 的 关注 和 喜爱 。 目 前 Apache Spark 社区 非常 活 
跃 ,并 且 以 Spark RDD 为 核心 ,逐步 形成 了 Spark 的 生态 圈 , 包 括 Spark SQL, Spark 
Streaming „Spark MLib 等 众多 上 层 数据 分 析 工 具 以 及 实时 处 理 框 架 。 

目前 Spark 已 经 在 国内 外 各 大 公司 使 用 ,包括 eBay、Yahoo!、IBM、 阿 里 、 百 度 、 腾 讯 
等 众多 公司 。 实 践 表明 Spark 性 能 优越 ,各 大 公司 在 Spark 上 的 投入 也 比较 大 ,因此 
Spark 生态 也 在 不 断 完善 ,不 断 有 新 的 Spark 生态 圈 中 的 框架 出 现 ,包括 Tachyon 分 布 式 
内 存 文件 系统 、SparkR 统计 框架 。 


7.7 习题 


. 什么 是 Spark RDD? 简要 介绍 RDD 的 创建 方法 。 
.什么 是 DAG? Spark 的 DAG 如 何 生成 ? 

. 简 述 Spark RDD 的 容错 方法 。 

. 简 述 Spark 的 内 存 管理 的 工作 原理 。 

.什么 是 Spark 的 分 区 Partition? 


ao fF w rw on 
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8.1 流 计 算 概述 


在 传统 的 数据 处 理 流程 中 总 是 先 收集 数据 ,然后 将 数据 放 到 DB 中 。 当 人 们 需要 的 
时 候 通 过 DB 对 数据 做 query, 得 到 答案 或 进行 相关 的 处 理 。 这 样 看 起 来 虽然 非常 合理 ， 
但 是 结果 却 不 理想 ,尤其 是 对 一 些 实时 搜索 应 用 环境 中 的 某 些 具体 问题 ,采用 类 似 于 
MapReduce 方式 的 离线 处 理 并 不 能 很 好 地 解决 问题 ,这 就 引出 了 一 种 新 的 数据 计算 结 
构 一 一 流 计算 方式 。 它 可 以 很 好 地 对 大 规模 流动 数据 在 不 断 变化 的 运动 过 程 中 实时 地 
进行 分 析 , 捕 捉 到 可 能 有 用 的 信息 .并 把 结果 发 送 到 下 一 计算 节点 。 

比较 早期 的 代表 系统 有 IBM 公司 的 System S, 它 是 一 个 完整 的 计算 架构 ,通过 
“stream computing” 技 术 可 以 对 stream 形式 的 数据 进行 real-time 的 分 析 。 最 初 的 系统 
拥有 大 约 800 个 微 处 理 器 ,但 IBM fc .根据 需求 ,这 个 数字 也 有 可 能 上 万 。 研 究 者 讲 到 ， 
其 中 最 关键 的 部 分 是 System S 软件 , 它 可 以 将 任务 分 开 , 比 如 分 为 图 像 识 别 和 文本 识 
别 , 然 后 将 处 理 后 的 结果 碎片 组 成 完整 的 答案 。IBM 实验 室 的 高 性 能 流 运 算 项 目的 负责 
人 Nagui Halim 谈 到 : System S 是 一 个 全 新 的 运算 模式 , 它 的 灵活 性 和 速度 颇具 优势 。 
与 传统 系统 相 比 , 它 的 方式 更 加 智能 化 .可 以 适当 转变 ,以 适用 于 需要 解决 的 问题 。 

目前 流 式 计 算是 业界 研究 的 一 个 热点 ,最 近 Twitter, LinkedIn 等 公司 相继 开源 了 流 
式 计算 系统 Storm, Kafka 等 ,Twitter 最 近 又 公布 了 新 的 流 式 计 算 框 架 Hron, 加 上 
Yahoo! 之 前 开源 的 S4 , 流 式 计算 研究 在 互联 网 领域 持续 升温 。 不 过 , 流 式 计算 并 非 是 
最 近 几 年 才 开始 研究 ,传统 行业 ( 像 金融 领域 等 ) 很 早 就 已 经 在 使 用 流 式 计 算 系 统 , 比 较 
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知名 的 有 StreamBase , Borealis 等 。 


8.2 流 计算 与 批 处 理 系统 的 对 比 


流 计算 侧重 于 实时 计算 方面 ,而 批 处 理 系统 侧重 于 离线 数据 处 理 方面 ; 一 个 追求 的 
是 低 延 迟 , 另 外 一 个 追求 的 是 高 吞吐 量 ; 处 理 的 数据 也 不 同 , 流 计算 处 理 的 数据 经 常 不 断 
变化 ,而 离线 处 理 的 数据 是 静态 数据 ,输出 形式 也 不 同 。 总 体 来 讲 ,两 者 的 区 别 体现 在 以 
下 几 个 方面 。 

CL) 系统 的 输入 包括 两 类 数据 , 即 实时 的 流 式 数 据 和 静态 的 离线 数据 。 其 中 , 流 式 数 
据 是 前 端 设 备 实 时 发 送 的 识别 数据 .GPS 数据 等 ,是 通过 消息 中 间 件 实现 的 事件 触发 推 
送 至 系统 的 。 离 线 数据 是 应 用 需要 用 到 的 基础 数据 (提前 梳理 好 的 ) 等 关系 数据 库 中 的 
离线 数据 ,是 通过 数据 库 读 取 接 口 获取 而 批量 处 理 的 系统 。 

(2) 系统 的 输出 也 包括 流 式 数据 和 离线 数据 。 其 中 , 流 式 数据 是 写 入 消息 中 间 件 的 
指定 数据 队列 缓存 ,可 以 被 异步 推送 至 其 他 业务 系统 。 离 线 数据 是 计算 结果 ,直接 通过 
接口 写 人 业务 系统 的 关系 型 数据 库 。 

(3) 业务 的 计算 结果 输出 方式 是 通过 两 个 条 件 决 定 的 。 一 是 结果 产生 的 频率 。 若 计 
算 结 果 产 生 的 频率 可 能 会 较 高 , 则 结果 以 流 式 数 据 的 形式 写 人 消息 中 间 件 (比如 要 实时 
监控 该 客户 所 拥有 的 标签 ,也 就 是 说 要 以 极 高 的 速度 被 返回 ,这 类 结果 以 流 式 数据 形式 
被 写 和 消息 中 间 件 )。 这 是 因为 数据 库 的 吞吐 量 很 可 能 无 法 适应 高 速 数据 的 存 取 需 求 。 
二 是 结果 需要 写 人 的 数据 库 表 规模 。 若 需要 插入 结果 的 数据 表 已 经 很 庞大 , 则 结果 以 流 
式 数据 的 形式 写 人 消息 中 间 件 , 待 应 用 层 程序 实现 相关 队列 数据 的 定期 或 定量 的 批量 数 
据 库 转 储 ( 比 如 宽 表 异常 庞大 ,每 次 查询 数据 库 都 会 有 很 高 的 延迟 ,那么 就 将 结果 信息 暂 
时 存 人 中间 件 层 , 在 晚 些 时 候 再 定时 或 定量 地 进行 批量 数据 库 转 储 )。 这 是 因为 大 数据 
表 的 读 取 和 写 人 操作 对 毫秒 级 别 的 响应 时 间 仍 然 无 能 为 力 。 若 对 以 上 两 个 条 件 均 无 要 
求 ,结果 可 以 直接 写 人 数据 库 的 相应 表 中 。 


8.3 Storm 流 计算 系统 


Storm 是 一 个 Twitter 开源 的 分 布 式 、 高 容错 的 实时 计算 系统 。Storm 令 持 续 不 断 
的 流 计算 变 得 容易 ,弥补 了 Hadoop 批 处 理 不 能 满足 的 实时 要 求 。Storm 经 常用 于 实时 
分 析 、 在 线 机 器 学 习 、 持 续 计 算 、 分 布 式 远程 调用 和 ETL 等 领域 。Storm 的 部 署 管理 非常 
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简单 ,而 且 在 同类 的 流 式 计算 工具 中 Storm 的 性 能 也 是 非常 出 众 的 。 
Storm 主要 分 为 Nimbus 和 Supervisor 两 种 组 件 ,集群 架构 如 图 8-2 所 示 。 这 两 种 
组 件 都 是 快速 失败 的 ,没有 状态 。 任 务 状态 和 心跳 信息 等 都 保存 在 ZooKeeper 上 ,提交 


的 代码 资源 都 在 本 地 机 器 的 硬盘 


Es 


(D). Nimbus 负责 在 集群 里 面 发 送 代 码 ,分 配 工作 给 机 器 ,并 且 监控 状态 。 全 局 只 有 


一 个 。 


(2) Supervisor 会 监听 分 配给 它 那 台 机 器 的 工作 ,根据 需要 启动 /关闭 工作 进程 
Worker。 每 一 个 要 运行 Storm 的 机 器 上 都 要 部 署 一 个 ,并 且 按 照 机 器 的 配置 设 定 上 面 分 


配 的 槽 位 数 。 


(3) ZooKeeper 是 Storm 重点 依赖 的 外 部 资源 。Nimbus 和 Supervisor 甚至 实际 运 
47) Worker 都 是 把 心跳 信息 保存 在 ZooKeeper E. Nimbus 也 是 根据 ZooKeerper 上 的 
心跳 信息 和 任务 运行 状况 进行 调度 和 任务 分 配 的 。 

(4) Storm 提交 运行 的 程序 称 为 Topology。 

(5) Topology 处 理 的 最 小 消息 单位 是 一 个 Tuple, 也 就 是 一 个 任意 对 象 的 数组 。 

(6) Topology 由 Spout 和 Bolt 构成 。Spout 是 发 出 Tuple 的 节点 。Bolt 可 以 随意 
订阅 某 个 Spout 或 者 Bolt 发 出 的 Tuple。Spout 和 Bolt 统称 为 Component。 

图 8-1 是 一 个 Topology 设计 的 逻辑 视图 ,图 8-2 是 Storm 集群 架构 。 
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图 8-1 Topology 设计 的 逻辑 图 


图 8-3 所 示 为 Storm 工作 流 。 
整体 的 Storm 工作 流 步 又 如 下 。 
CD 在 初始 情况 下 ,Nimbus 等 待 客户 端 提交 Storm Topology. 

(2) 一 旦 一 个 Topology 提交 后 ,Nimbus 将 会 处 理 这 个 Topology, 安 排 将 要 执行 的 


所 有 任务 。 


(3) 一 旦 所 有 的 工作 节点 的 信息 都 收集 完成 ,Nimbus 将 分 发 所 有 的 任务 到 各 个 计算 


PRs 


(4) 在 一 定 的 时 间 间 隔 内 ,所 有 的 Supervisor 都 会 发 送 心跳 信息 给 Nimbus. 告诉 
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图 8-2. Storm 集群 架构 
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图 8-3 Storm 工作 流 


Nimbus 该 Supervisor 正常 运行 。 

(5) "í Supervisor 失效 时 ,没有 发 送 心跳 信息 给 Nimbus, 此 时 Nimbus 会 把 任务 赋 
给 其 他 Supervisor。 

(6) 当 Nimbus 失效 的 时 候 ,Supervisor 会 正常 运行 以 前 赋 给 该 Supervisor 的 任务 。 

C) 一 旦 所 有 的 任务 都 完成 ,Supervisor 会 等 一 个 新 的 任务 发 送 过 来 。 

(8) 重新 启动 的 Nimbus 从 它 失效 的 那个 地 方 继续 启动 。 类 似 地 ,重新 启动 的 
Supervisor 也 是 从 它 停止 的 地 方 继续 启动 。Storm 确保 所 有 的 任务 至 少 执行 一 次 。 

(9) 当 所 有 Topology 都 完成 的 时 候 , Nimbus 等 待 新 的 Topology 到 达 ; FM. 
Supervisor 也 是 类 似 。 
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8.4 Samza 流 计 算 系 统 


Apache Samza 是 一 个 分 布 式 流 处 理 框架 。 它 使 用 Apache Kafka 用 于 消息 发 送 , 采 
用 Apache Hadoop YARN 来 提供 容错 、 处 理 器 隔离 、 安 全 性 和 资源 管理 ,专用 于 实时 数 
据 的 处 理 ,非常 像 Twitter 的 流 处 理 系统 Storm, Samza 非常 适用 于 实时 流 数据 处 理 的 
业务 (如 同 Apache Storm) ,如 数据 跟踪 、 日 志 服 务 、 实 时 服务 等 应 用 , 它 能 够 帮助 开发 者 
进行 高 速 消息 处 理 ,同时 还 具有 良好 的 容错 能 力 。 在 Samza 流 数据 处 理 过 程 中 ,每 个 
Kafka 集群 都 与 一 个 能 运行 YARN 的 集群 相连 并 处 理 Samza 作业 。 

Samza 由 以 下 3 层 构 成 : 

。 数据 流 层 (A streaming layer); 

。 执行 层 (An execution layer); 

。 处 理 层 (A progressing layer) 。 

整体 的 Samza 架构 通过 图 8-4 所 示 的 3 个 模块 完成 。 

。 数据 流 : 分 布 式 消息 中 间 件 Kafka, 

。 执行 : Hadoop 资源 调度 管理 系统 YARN。 

。 处 理 : Samza API。 

Samza 通过 使 用 YARN 和 Kafka 提供 一 个 阶段 性 的 流 处 理 和 分 区 的 框架 ,如 图 8-5 



































所 示 。 
Samza 
YARN =| RM 
Client 
NM NM 
Sas / Samza 
Task 
aM Runner 
Samza API | 
Kafka Kafka 
YARN Kafka J Broker Broker 























图 8-4 Samza 的 功能 模块 图 8-5 Samza, YARN 和 Kafka 模块 之 间 的 互动 
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Samza 的 客户 端 使 用 YARN 来 运行 一 个 Samza 任务 (Job): YARN 启动 并 且 监 控 
一 个 或 者 多 个 Samza Container. ,同时 用 户 的 处 理 逻 辑 代码 (使 用 StreamTask API) 在 这 
些 容 器 里 运行 。 这 些 Samza 流 任务 的 输入 和 输出 都 来 自 Kafka 的 Broker( 通 常 它 们 是 作 
为 YARN NM 位 于 同 台 机 器 ) 。 

进一步 来 说 ,第 一 个 任务 是 分 组 工作 通过 将 带 有 相同 userid 的 消息 发 送 到 一 个 中 间 
话题 的 相同 分 区 里 ,用 户 可 以 通过 使 用 第 一 个 Job 发 射 的 消息 里 的 userid 作为 key 来 实 
现 ,并 且 这 个 key 被 映射 到 这 个 中 间 话 题 的 分 区 (通常 会 取 key 对 分 区 数目 取 余 )。 第 二 
个 任务 处 理 中 间 话 题 产生 的 消息 。 在 第 二 个 任务 里 每 个 任务 都 会 处 理 中 间 话 题 的 一 个 
分 区 。 在 对 应 分 区 中 任务 会 针对 每 一 个 userid 做 一 个 计数 器 ,并 且 每 次 任务 接收 带 着 一 
个 特定 userid 的 消息 时 对 应 的 计数 器 自 增 1 。 

Kafka 接收 到 第 一 个 Job 发 送 的 消息 把 它们 缓冲 到 硬盘 ,并 且 分 布 在 多 台 机 器 上 。 
这 有 助 于 系统 的 容错 性 提升 : 如 果 一 台 机 器 挂 了 ,没有 消息 会 被 丢失 ,因为 它们 被 存在 其 
他 机 器 里 。 并 且 如 果 第 二 个 Job 因为 某 些 原因 消费 消息 的 速度 慢 下 来 或 者 停止 ,第 一 个 
任务 也 不 会 受到 影响 : 磁盘 缓冲 可 以 积累 消息 直到 第 二 个 任务 快 起 来 。 

通过 对 topic 分 区 ,将 数据 流 处 理 拆 解 到 任务 中 以 及 在 多 台 机 器 上 并 行 执行 任务 ,使 
得 Samza 具有 很 高 的 消息 吞吐 量 。 通 过 结合 YARN 和 Kafka, Samza 实现 了 高 容错 : 如 
果 一 个 进程 或 者 机 器 失败 , 它 会 自动 在 另 一 台 机 器 上 重启 并 且 继 续 从 消息 终端 的 地 方 开 
始 处 理 , 这 些 都 是 自动 化 的 。 


8.5 阿里 云 流 计 算 


Aliyun StreamCompute( 阿 里 云 流 计算 ) 是 运行 在 阿里 云 平台 上 的 流 式 大 数据 分 析 
台 ,给 用 户 提供 在 云 上 进行 流 式 数据 实时 化 分 析 的 工具 。 使 用 阿里 云 StreamSQL, 用 
户 可 以 轻松 地 搭建 自己 的 流 式 数据 分 析 和 计算 服务 ,彻底 规避 掉 底层 流 式 处 理 逻 辑 的 繁 
杂 的 重复 开发 工作 。 
阿里 云 流 计 算 提 供 类 标准 的 StreamSQL 语义 协助 用 户 简单 轻松 地 完成 流 式 计算 
逻辑 的 处 理 。 同 时 受 限于 SQL 代码 功能 ,无 法 满足 某 些 特定 场景 的 业务 需求 ,阿里 云 流 
计算 同时 为 部 分 授信 用 户 提供 全 功能 的 UDF 函数 ,帮助 用 户 完成 业务 定制 化 的 数据 处 
理 逻 辑 。 在 流 数据 分 析 领 域 ,用 户 直接 使 用 StreamSQL 十 UDF 即 可 完成 大 部 分 流 式 数 
据 分 析 处 理 逻 辑 ; 同样 受 限 于 SQL 的 表达 能 力 ,目前 的 流 计 算 更 擅长 于 做 流 式 数据 分 
析 统计、 处 理 , 对 于 非 SQL 能 够 解决 的 领域 .例如 复杂 的 迭代 数据 处 理 、 复 杂 的 规则 引 
擎 告警 则 不 适合 用 现 有 的 流 计算 产品 去 解决 。 





AN 大 数据 基础 及 应 用 


目前 , 流 计 算 擅 长 解决 以 下 几 个 领域 的 应 用 场景 问题 。 

(1) 实时 的 网 络 点 击 PV UV 统计 。 

(2) 统计 交通 卡 口 的 平均 5 分 钟 通过 的 车 流量 。 

(3) 水 利 大 坝 的 压力 数据 统计 和 展现 。 

(4) 网 络 支付 涉及 金融 盗窃 固 定 行为 规则 的 告警 。 

下 面 简单 介绍 阿里 云 流 计 算 的 系统 架构 情况 ,图 8-6 是 阿里 云 流 计算 的 处 理 流程 。 
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图 8-6 阿里 云 流 计算 的 处 理 流程 
1. 数据 采集 


广义 的 实时 数据 采集 指 用 户 使 用 流 式 数据 采集 工具 将 数据 流 式 且 实时 地 采集 并 传 
输 到 大 数据 Pub/Sub 系统 ,该 系统 将 为 下 游 流 计算 提供 源源 不 断 的 事件 源 去 触发 流 式 计 
算 任 务 的 运行 。 阿 里 云 大 数据 生态 中 提供 了 诸多 针对 不 同 场景 领域 的 流 式 数据 Pub/ 
Sub 系统 ,阿里 云 流 计算 天 然 集 成 图 8-6 中 诸多 的 Pub/Sub 系统 ,以 方便 用 户 可 以 轻松 
地 集成 各 类 流 式 数据 存储 系统 。 例 如 用 户 可 以 直接 使 用 流 计算 对 接 SLS 的 LogHub £ 
统 ,以 做 到 快速 集成 并 使 用 ECS 日 志 。 


2. 流 计 算 


流 数据 作为 流 计算 的 触发 源 驱 动 流 计算 运行 ,因此 ,一 个 流 计 算 任 务必 须 至 少 使 用 
一 个 流 数 据 作 为 数据 源 。 对 于 一 些 业务 较 复 杂 的 场景 , 流 计算 还 支持 和 静态 数据 存储 进 
行 关联 查询 。 例 如 针对 每 条 DataHub 流 式 数据 , 流 计算 将 根据 流 式 数 据 的 主键 和 RDS 
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中 的 数据 进行 关联 查询 ( 即 join 查询 ); 同时 ,阿里 云 流 计算 还 支持 针对 多 条 数据 流 进行 
关联 操作 ,StreamSQL 支持 阿里 集团 量 级 的 复杂 业务 也 不 在 话 下 。 


3. 实时 数据 集成 


为 尽 可 能 减少 数据 处 理 的 时 延 , 同 时 减少 数据 链 路 的 复杂 度 , 阿 里 云 流 计算 可 将 计 
算 的 结果 数据 不 经 其 他 过 程 直接 写 和 目的 数据 源 ,从 而 最 大 程度 地 降低 全 链 路 数据 时 
延 ,保证 数据 加 工 的 新 鲜 度 。 为 了 打通 阿里 去 生态 ,阿里 云 流 计算 天 然 集成 了 OLTP 
(RDS 产品 线 等 )、NoSQL(OTS 4) , OLAPCADS 等 )、MessageQueue(DataHub , ONS 
4*) . MassiveStorage( OSS, MaxCompute 等 ) , 


4. 数据 消费 


流 计算 的 结果 数据 进入 各 类 数据 源 后 ,用 户 可 以 使 用 各 类 个 性 化 的 应 用 消费 结果 数 
据 。 例 如 用 户 可 以 使 用 数据 存储 系统 访问 数据 ,使 用 消息 投递 系统 进行 信息 接收 ,或 者 
直接 使 用 告警 系统 进行 告警 。 

每 年 的 天 猫 双 十 一 购物 狂欢 节 已 逐渐 成 为 全 球 互 联网 最 大 规模 的 商业 促销 狂欢 活 
动 。 而 每 年 的 双 十 一 节 除 了 " 买 买 买 ? 之 外 ,最 引 人 注 目的 就 是 天 猫 双 十 一 大 屏 不 停 闪 变 
跳跃 的 总 体 成 交 总 额 。 这 份 实时 化 的 大 数据 展示 链 路 凝结 了 阿里 集团 诸多 项 尖 级 工程 
师长 达 数 月 的 辛勤 劳作 ,其 中 关键 指标 也 颇具 亮点 ,包括 从 天 猫 交 易 下 单 购 买 到 数据 采 
集 .数据 计算 .数据 校 验 , 最 终 落 到 双 十 一 大 屏 上 展现 的 全 链 路 时 间 压 缩 在 5 秒 以 内 ,0 点 
顶峰 计算 性 能 高 达 数 十 万 订单 / 秒 , 多 条 链 路 流 计 算 备 份 确保 万 无 一 失 。 


8.6 集群 日 志文 件 的 实时 分 析 


流 计算 适用 于 大 规模 实时 计算 分 析 , 使 用 的 生产 环境 包括 股票 市 场 分 析 、 证 券 、 传 感 
器 数据 分 析 等 ,也 可 以 用 于 实时 分 析 当 前 系统 的 运行 状态 。 目 前 分 布 式 系统 在 各 大 生产 
系统 中 广泛 使 用 ,监控 这 些 分 布 式 系 统 产 生 的 日 志 , 进 而 分 析 这 些 系统 的 运行 状态 ,判断 
集群 运行 是 否 正常 ,采用 流 计 算 框 架 实 时 分 析 分 布 式 系统 产生 的 日 志 。 

下 面 以 分 析 HDFS 集群 运行 状态 来 简单 说 明 流 式 计 算 框架 的 使 用 。HDFS 集群 由 3 
个 部 分 组 成 , 即 NameNode,DataNode 和 SecondaryNameNode, NameNode 保存 所 有 的 
元 数据 信息 ,以 及 管理 所 有 的 DataNode', 一 个 健康 和 正常 运行 的 NameNode 节点 对 于 一 
个 正常 的 HDFS 集群 至 关 重 要 , 当 NameNode 出 现 故 障 的 时 候 需 要 及 时 报警 .从 而 最 大 
程度 地 减少 损失 。 分 析 一 个 NameNode 节点 是 否 运行 正常 ,一 个 重要 的 方法 就 是 查看 
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NameNode 的 日 志文 件 , 当 NameNode 的 运行 出 现 不 正常 情况 时 会 产生 WARN 和 
ERROR 日 志 信息 。 

下 面 利用 Flink 做 简单 的 日 志文 件 单词 统计 分 析 ,分 析 一 个 时 间 段 内 NameNode 产 
生 的 单词 统计 。 将 HDFS 集群 的 NameNode 产生 的 日 志文 件 重 定向 到 netcat 命令 ,生成 
一 个 文件 服务 器 。Flink 流 应 用 程序 接受 来 自 netcat 端的 文本 数据 ,然后 统计 单词 个 数 ， 
最 后 在 一 个 具体 的 Flink 集群 节点 上 生成 运算 结果 并 显示 。 

Flink 基于 网 络 文本 数据 的 实时 单词 统计 分 析 代 码 ,详细 的 可 运行 代码 可 以 从 
GitHub 上 下 载 (https://github. com/alibook/alibook-bigdata. git) ,以 下 是 部 分 代码 。 





public class SocketTextStream { 
public static void main(String[ ] args) throws Exception { 


if (!parseParameters(args)) { 


return; 


// 建 立 一 个 执行 环境 
final StreamExecutionEnvironment env = StreamExecutionEnvironment 


. getExecutionEnvironment(); 


// 获 取 输入 数据 


DataStream < String> text = env.socketTextStream(hostName, port, 'Vn', 0); 


DataStream < Tuple2 «String, Integer >> counts = 


// 拆 分 成 对 的 线 (二 元 组 ) 包 含 : (word, 1) 

text. flatMap(new Tokenizer()) 

// 由 元 组 字段 "0" 分 组 并 且 合计 元 组 字段 "1" 
.keyBY(0) 


.sun(1); 


if (fileOutput) ( 
counts. writeAsText(outputPath, WriteMode. NO_OVERWRITE) ; 
} else { 


counts. print(); 





// 执 行程 序 

















env. execute("WordCount from SocketTextStream Example") ; 


TCT CET CECE CECT CET CeCe TEST CTT ET CCC EEEO OOO E E E EEO EEEE 


// UTIL METHODS 


TCT CET CT CTT CeCe T CET CTT T ETT C TESST TTT EC STCT CTT CST ST TTS SS 


private static boolean fileOutput = false; 
private static String hostName; 
private static int port; 


private static String outputPath; 


private static boolean parseParameters(String[] args) { 


// 输 入 参数 分 析 
if (args. length == 3) { 
fileOutput = true; 
hostName - args[0]; 
port = Integer. valueOf(args[1]); 
outputPath = args[2]; 
) else if (args. length == 2) { 
hostName = args[0]; 
port = Integer.valueOf(args[1]); 
) else ( 
System. err. println("Usage: SocketTextStreamWordCount < hostname >< port > 
[< output path>]"); 
return false; 
} 


return true; 


f xx 
* Implements the string tokenizer that splits sentences into words * as auser — 
defined FlatMapFunct ion, The function takes a line * (String) andsplits it into multiple 
pairs in the form of "(word,1)" * ({@code Tuple2 < String, Integer >}). 
*/ 
public static final class Tokenizer implements FlatMapFunction < String, Tuple2 


< String, Integer >> { 
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private static final long serialVersionUID = 1L; 


public void flatMap(String value, Collector < Tuple2 < String, Integer >> out) 
throws Exception ( 
// 规 范 和 分 割 线 
String[] tokens = value. toLowerCase(). split("\\W+"); 


// 发 出 对 
for (String token : tokens) { 
if (token. length() > 0) { 


out. collect(new Tuple2 «String, Integer >(token, 1)); 











首先 在 终端 上 生成 文件 服务 器 ,在 HDFS 集群 的 NameNode 节点 的 终 


il f hadoop ong — namenode - nobida144. log | nc - 1 12345 


上 面 的 hadoop-qzhong-namenode-nobidal 44. log 为 HDFS 集群 NameNode 产生 的 
日 志文 件 ,12345 为 网 络 文件 传输 的 端口 号 。 
然后 将 利用 Maven 编译 好 的 JAR 文件 在 Flink 上 运行 ,在 Flink 集群 节 


下 命令 。 


-运行 以 下 





上 运行 以 











bin/flink run - c alibook. flink. SocketTextStream /home/qzhong/flink - 0. 0. 1. jar 
nobidal44flink 12345 











运行 结果 如 图 8-7 所 示 。 


Job execution switched to status RUNNING. 

Source: Socket Stream -> Flat Map(1/1) switched to SCHEDULED 
Source: Socket Stream -> Flat Map(1/1) switched to DEPLOYING 
Keyed Aggregation -> Sink: Unnamed(1/1} switched to SCHEDULED 


Keyed Aggregation -> Sink: Unnamed(1/1} switched to DEPLOYING 
Keyed Aggregation -> Sink: Unnamed(1/1} switched to RUNNING 
Source: Socket Stream -> Flat Map(1/1} switched to RUNNING 





图 8-7 SocketTextStream 任务 启动 





然后 根据 Flink 的 Web 界面 查看 SocketTextStream 任务 ,找到 对 应 的 Flink 文本 统 


计 计 算 节 点 ,如 图 8-8 所 示 。 


Subtasks — TaskManagers Accumulators Checkpoints Back Pressure 
Bytes Records Bytes Records 
StatTme End Time Duration Name received received sent sent Tasks Status 
2016-11- — 2016-11-22, 3m55s Source: Socket Stream -> Flat Map 0B o 482 49721 DON 
2201117 0:15:12 KB nud 
o 
End Bytes Records Bytes Records 

Start Time Time Duration received received sent sent Attempt Host Status 

2016-11-22, 3m55s 08 0 482KB — 49721 1 nobida148:13524 [TJ 

0:11:17 
2016-11- 2016-11-22, 3m55s Keyed Aggregation -> Sink: Unnamed 482KB 49721 08 0 oon LIS 
22,0:11:17 0:15:12 ooo 


图 8-8 JH Flink 查看 SocketTextStream 任务 





接 下 来 在 节点 nobidal48 上 查看 具体 的 任务 单词 统计 情况 ,运行 结果 如 图 8-9 所 示 。 


qzhong@nobidal48 log]$ tail -f flink-qzhong-taskmanager-2-nobidal48. out 
1,318) 

148,75) 

39402,75) 

call, 292) 


bytes, 73) 
201 6,468) 


debug,468) 
namenode,15) 
namenoderesourcechecker,29) 
namenoderesourcechecker,30) 
java,541) 
isresourceavailable, 15) 





图 8-9 SocketTextStream 单词 统计 结果 


8.7 流 计 算 的 发 展 趋势 








从 流 计算 技 术 发 展 和 流 计算 应 用 趋势 两 个 方面 阐述 。 
- 算 技术 发 展 方面 , 随 着 互联 网 技术 的 不 断 发 展 ,互联 网 产生 的 数据 不 断 增加 ， 
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传统 的 离线 处 理 方式 无 法 适用 于 不 断 变化 的 数据 以 及 无 法 满足 数据 分 析 的 低 延 迟 要 求 ， 
流 计算 框架 可 以 很 好 地 适应 不 断 变化 的 数据 以 及 实时 处 理 数 据 。 为 了 满足 流 计算 的 实 
时 特性 ,目前 流 计 算 框 架 基 本 上 把 大 规模 数据 存放 在 内 存 中 ,如 Spark Streaming, Flink 
等 ; 主要 是 目前 内 存 存储 容量 不 断 增加 ,单位 存储 成 本 不 断 降 低 ,内存 存 取 访 问 速度 在 纳 
秒 级 别 。 因 此 建立 以 内 存 为 基础 的 实时 计算 框架 是 流 计算 的 一 个 发 展 趋势 。 

作为 一 个 通用 的 计算 框架 , 流 计算 框架 也 必须 提供 容错 机 制 ,提高 系统 可 靠 性 。 流 
计算 框架 应 该 提供 一 种 更 好 的 容错 机 制 , 传 统 的 批 处 理 采 用 的 是 以 重 做 的 方式 来 提供 容 
错 功 能 ,但 是 该 方式 适合 于 短 任务 的 执行 ,并 不 能 很 好 地 适用 于 流 计算 框架 。 因 此 流 计 
算 框 架 在 容错 性 方面 需要 提供 更 短 的 时 间 以 恢复 错误 的 计算 任务 。 

在 流 计算 应 用 趋势 方面 ,目前 流 计 算 框 架 在 股票 分 析 、 传 感 器 数据 分 析 、 智 能 交通 数 
据 分 析 等 领域 不 断 发 展 ,同时 也 在 在 线 学 习 方面 不 断 取得 进步 ,并 不 断 扩展 到 其 他 实时 
分 析 领 域 。 


8.8 习题 


. 简 述 流 计 算 和 批 处 理 系统 的 区 别 。 

. 简 述 Storm 流 计 算 框架 的 架构 以 及 Storm 集群 工作 流 状 态 。 

. 简 述 Samza 流 计算 框架 的 架构 .运行 工作 原理 。 

. 动手 构建 一 个 关于 天 气 的 实时 预警 分 析 应 用 ,采用 Storm 流 计算 框 架 。 


e wn = 


图 计 算 


9.1 图 计算 概述 


在 现实 生活 中 人 们 会 遇 到 大 量 采 用 图 作为 数据 模型 的 计算 问题 ,这 类 计算 问题 以 顶 
点 为 中 心 , 典 型 的 如 社交 网 络 分 析 移动 电话 网 络 分 析 .已 发 表 科学 成 果 之 间 的 相互 引用 
关系 计算 等 ,这 类 问题 统称 为 图 计算 问题 。 解 决 图 计算 问题 的 一 般 方 法 有 最 短路 径 计 
算 、 聚 类 以 及 PageRank 的 变 体 。 

就 目前 而 言 , 需 要 处 理 的 图 计算 问题 的 规模 正在 快速 增 大 并 且 变 得 更 加 复杂 ,涉及 
大 量 的 边 和 顶点 ,因此 工业 界 和 学 术 界 都 在 为 高 效 解决 图 计算 问题 而 不 断 努 力 ,已 经 开 
发 出 很 多 分 布 式 图 计算 框架 系统 。 以 Google Pregel 为 代表 的 分 布 式 图 计算 框架 采用 
BSP 计算 模型 处 理 Google 公司 内 部 的 大 量 图 任务 。Apache 软件 基金 会 根据 Google 发 
表 的 Pregel 论文 实现 了 一 个 开源 的 分 布 式 图 计算 框架 Giraph。 不 同 于 Pregel 和 Giraph 
采用 消息 传递 机 制作 为 计算 节点 之 间 的 通信 方式 , 卡 内 基 梅 隆 大 学 开发 了 分 布 式 图 计算 
框架 GraphLab ,采用 GAS(Gather、Apply、Scatter) 拉 数据 (data-pulling) 模 型 和 共享 内 
存 抽象 ,图 计算 算法 开发 人 员 只 需要 为 每 个 顶点 实现 用 户 定义 的 GAS 函数 即 可 。 

简 而 言 之 ,分 布 式 图 框架 就 是 将 大 型 图 的 各 种 操作 封装 成 接口 ,让 分 布 式 存储 、 并 行 
计算 等 复杂 问题 对 上 层 透明 ,从 而 使 工程 师 将 焦点 放 在 图 相关 的 模型 设计 和 使 用 上 ,而 
不 用 关心 底层 的 实现 细节 。 分 布 式 图 框架 的 实现 需要 考虑 两 个 问题 ,一 是 怎样 切 分 图 以 
更 好 地 计算 和 保存 ; 二 是 采用 什么 图 计算 模型 。 


1. 图 切 分 方式 
图 的 切 分 从 总 体 上 说 有 点 切 分 和 边 切 分 两 种 方式 。 
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COD 点 切 分 。 通 过 点 切 分 之 后 ,每 条 边 只 保存 一 次 ,并 且 出 现在 同一 台 机 器 上 。 邻 居 
多 的 点 会 被 分 发 到 不 同 的 节点 上 ,增加 了 存储 空间 ,并 且 有 可 能 产生 同步 问题 。 它 的 优 
点 是 减少 了 网 络 通信 。 

(2) 边 切 分 。 通 过 边 切 分 之 后 ,顶点 只 保存 一 次 ,切断 的 边 打 断后 会 保存 在 两 台 机 器 
上 。 在 进行 基于 边 的 操作 时 ,对 于 两 个 顶点 分 到 两 个 不 同 的 机 器 的 边 来 说 ,需要 进行 网 
络 传输 数据 。 这 增加 了 网 络 传输 的 数据 量 ,但 好 处 是 节约 了 存储 空间 。 





2. BSP 计算 模型 


在 BSP 模型 中 ,一 次 计算 过 程 由 一 系列 全 局 超 步 组 成 ,每 一 个 超 步 由 并 发 计算 .通信 
和 同步 3 个 步骤 组 成 。 同 步 完 成 标志 着 这 个 超 步 的 完成 及 下 一 个 超 步 的 开始 。BSP Bi 
型 的 准则 是 批量 同步 (bulk synchrony) ,其 独特 之 处 在 于 超 步 (superstep) 概 念 的 引入 。 
-个 BSP 程序 同时 具有 水 平和 垂直 两 个 方面 的 结构 。 从 垂直 上 看 ,一 个 BSP 程序 由 一 
系列 串 行 的 超 步 组 成 ,如 图 9-1 所 示 。 


OCCO seo 
pu x Z 


^ ` 


oF eS : (6) superstep 1 


` 


G-9 G9 ww 


e--€ 0-0 superstep 3 
图 9-1 BSP 计算 模型 


从 水 平 上 看 ,在 一 个 超 步 中 所 有 的 进程 并 行 执行 局 部 计算 。 一 个 超 步 可 以 分 为 3 个 
阶段 ,如 图 9-2 所 示 。 


Processors 


图 9-2 BSP 中 的 superstep 
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CL) 在 本 地 计算 阶段 ,每 个 处 理 器 只 对 存储 在 本 地 内 存 中 的 数据 进行 本 地 计算 。 

(2) 在 全 局 通信 阶段 对 任何 非 本 地 数据 进行 操作 。 

G) 在 栅栏 同步 阶段 等 待 所 有 通信 行为 的 结束 。 

BSP 模型 有 以 下 几 个 特点 。 

CD 将 计算 划分 为 一 个 个 的 超 步 , 有 效 地 避免 死 锁 。 

(2) 将 处 理 器 和 路 由 器 分 开 , 强 调 了 计算 任务 和 通信 任务 的 分 离 ,而 路 由 器 仅 完成 点 
到 点 的 消息 传递 ,不 提供 组 合 . 复 制 和 广播 等 功能 ,这 样 做 既 掩盖 了 具体 的 互连网 络 拓 
扑 , 又 简化 了 通信 协议 。 

(3) 采用 障碍 同步 的 方式 ,以 硬件 实现 的 全 局 同步 是 可 控 的 粗 粒度 级 ,提供 了 执行 紧 
耦合 同步 式 并 行 算 法 的 有 效 方 式 。 


9.2 图 计算 与 流 计算 、 批 处 理 的 对 比 


图 计算 是 以 图 论 为 基础 、 以 图 的 方式 抽象 每 个 需要 处 理 的 计算 问题 ,基本 的 数据 结 
构 表 达 就 是 : G=(V,E,D), 其 中 V = vertex( 顶 点 或 者 节点 ),E 二 edge( 边 ),D= data 
(权重 )。 例 如 ,对 于 一 个 消费 者 的 原始 购买 行为 有 用 户 和 产品 两 类 节点 , 边 就 是 购买 行 
为 ,权重 是 边 上 的 一 个 数据 结构 ,可 以 是 购买 次 数 和 最 后 购买 时 间 。 对 于 我 们 面临 的 物 
理 世 界 的 许多 数据 问题 都 可 以 利用 图 结构 来 抽象 表达 ,如 社交 网 络 、 网 页 链接 关系 、 用 户 
传播 网 络 ,以 及 用 户 网 络 点 击 .浏览 和 购买 行为 ,甚至 消费 者 评论 内 容 . 内 容 分 类 标签 . 产 
品 分 类 标签 等 。 采 用 图 抽象 问题 处 理 模型 可 以 很 好 地 表达 现实 生活 中 的 各 个 事物 之 间 
的 关联 。 另 外 ,图 计算 任务 之 间 的 通信 模型 既 包 括 同 步 模型 (如 BSP 模型 ) ,也 可 以 采用 
异步 通信 计算 模型 。 

流 计算 处 理 一 般 是 针对 在 线 实时 计算 问题 提出 解决 方法 ,重点 强调 问题 处 理 的 实时 
性 ,要 求 计算 时 延 低 。 批 处 理 方法 一 般 是 针对 离线 数据 处 理 , 强 调 的 是 批 处 理 系统 的 大 
吐 量 。 从 目前 的 离线 处 理 框架 MapReduce, Spark 到 实时 计算 框架 Hadoop Online, 
Spark Streaming 和 Flink, 基 本 上 采用 的 是 BSP 的 同步 模型 。 

并 行 图 (graph-parallel) 计 算 和 实时 计算 、 批 处 理 计算 类 似 ,实时 计算 和 批 处 理 计 算 
采用 了 一 种 record-centric 的 集合 视图 ,而 分 布 式 图 计算 采用 了 一 种 vertex-centric 的 图 
视图 。 实 时 计算 、 批 处 理 计 算 通 过 同时 处 理 独立 的 数据 来 达到 并 发 的 目的 ,分 布 式 图 计 
算 则 是 通过 对 图 数据 进行 分 区 ( 即 切 分 ) 来 达到 并 发 的 目的 。 更 准确 地 说 ,分 布 式 图 计算 
递归 地 定义 特征 的 转换 函数 (这 种 转换 函数 作用 于 邻居 特征 ), 通 过 并 发 地 执行 这 些 转 换 
函数 来 达到 并 发 的 目的 。 





123 


会 大 数据 基础 及 应 用 


总 而 言 之 ,图 计算 、 流 计算 (实时 计算 )、 批 处 理 计 算 都 是 针对 现实 中 间 题 的 解决 思 
路 ,在 实际 问题 中 不 断 互补 。 


9.3 Spark GraphX 


GraphX 是 一 个 新 的 Spark API, 用 于 图 (Graph) 和 并 行 图 (graph-parallel) 的 计算 。 
GraphX 通过 引入 弹性 分 布 式 属性 图 (Resilient Distributed Property Graph, 顶 点 和 边 均 
有 属性 的 有 向 多 重 图 ) 来 扩展 Spark RDD。 为 了 支持 图 计算 ,GraphX 开发 了 一 组 基本 的 
功能 操作 和 一 个 优化 过 的 Pregel API。 另 外 ,GraphX 包含 了 一 个 快速 增长 的 图 算法 和 
图 builders 的 集合 ,用 于 简化 图 分 析 任 务 。 

GraphX 的 核心 抽象 是 弹性 分 布 式 属性 图 , 它 是 一 个 有 向 多 重 图 , 带 有 连接 到 每 个 顶 
点 和 边 的 用 户 定义 的 对 象 。 在 有 向 多 重 图 中 ,多 个 并 行 的 边 共 享 相同 的 源 和 目的 顶点 。 
其 支持 并 行 边 的 能 力 简 化 了 建 模 场 景 ,相同 的 项 点 可 能 存在 多 种 关系 (如 co-worker 和 
friend) 。 另 外 每 个 顶点 用 一 个 唯一 的 64 位 长 的 标识 符 (VertexID) 作 为 key, GraphX 并 
没有 对 顶点 标识 强加 任何 排序 。 同 样 , 边 拥有 相应 的 源 和 目的 顶点 标识 符 。 

属性 图 扩展 了 Spark RDD 的 抽象 .有 Table 和 Graph 两 种 视图 ,但 是 只 需要 一 份 物 
理 存储 。 两 种 视图 都 有 自己 独 有 的 操作 符 , 从 而 使 用 户 同 时 获得 了 操作 的 灵活 性 和 执行 
的 高 效率 。 属 性 图 以 vertex VD) fl edge(ED) 作 为 参数 类 型 ,这 些 类 型 分 别 是 顶点 和 边 
相关 联 的 对 象 的 类 型 。 

在 某 些 情况 下 ,在 同样 的 图 中 ,用 户 可 能 希望 拥有 不 同属 性 类 型 的 项 点 ,这 可 以 通过 
继承 完成 。 例 如 将 用 户 和 产品 建 模 成 一 个 二 分 图 ,可 以 使 用 以 下 方式 : 





class VertexProperty() 


case class UserProperty(val name: String) extends VertexProperty 
case class ProductProperty(val name: String, val price: Double) extends VertexProperty 
// 该 图 可 能 会 有 类 型 


var graph: Graph[VertexProperty, String] = null 





和 RDD 一 样 ,属性 图 是 不 可 变 的 、 分 布 式 的 、 容 错 的 。 图 的 值 或 者 结构 的 改变 需要 
生成 一 个 新 的 图 来 实现 。 注 意 ,原始 图 中 不 受 影响 的 部 分 都 可 以 在 新 图 中 重用 ,用 来 减 
少 存储 的 成 本 。 执 行者 使 用 一 系列 顶点 分 区 方法 对 图 进行 分 区 。 和 RDD 一 样 ,图 的 每 
个 分 区 可 以 在 发 生 故障 的 情况 下 被 重新 创建 在 不 同 的 机 器 上 。 

在 逻辑 上 .属性 图 对 应 于 一 对 类 型 化 的 集合 (RDD) ,这 个 集合 包含 每 一 个 顶点 和 边 
的 属性 。 因 此 ,在 图 的 类 中 包含 访问 图 中 顶点 和 边 的 成 员 变 量 。 
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class Graph[ VD, ED] { 
val vertices: VertexRDD[ VD] 
val edges: EdgeRDD[ ED] 

} 





VertexRDDLVD] 类 和 EdgeRDD[ ED] 类 是 RDD[ (VertexID, VD) ] fl RDD[ Edge 
[ED]] 的 继承 和 优化 版 本 。VertexRDDLVD]j 和 EdgeRDD[LED] 都 提供 了 额外 的 图 计算 
功能 及 内 部 优化 功能 。 


abstract class VertexRDD[VD]( 
sc: SparkContext, 
deps: Seq[Dependency[_] ]) extends RDD[(VertexId, VD)](sc, deps) 


abstract class EdgeRDD[ED]( 
Sc: SparkContext, 
deps: Seq[Dependency[ ]]) extends RDD[Edge[ED]](sc, deps) 








在 图 存储 模式 方面 .GraphX 借鉴 PowerGraph. 使 用 Vertex-Cut( 点 分 割 ) 方 式 存储 
图 ,用 3 个 RDD 存储 图 数据 信息 。 

(1) VertexTable(id, data), id 为 顶点 id,data 为 顶点 属性 。 

(2) EdgeTable(pid. src. dst. data), pid 为 分 区 id. src 为 源 顶 点 id. dst 为 目的 顶 
点 id data 为 边 属 性 。 

(3) RoutingTable(id, pid), id 为 顶点 id. pid 为 分 区 id, 

点 分 割 存储 的 实现 如 图 9-3 所 示 。 








Routing Pun 
Table (RDD) 
(RDD) o o 
(OCC) 
(sK c) 
(Co) 
° © 
° © 
(E K o) 
© O 


图 9-3 GraphX 点 分 割 存储 模型 
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9.4 Pregel 


Pregel 是 一 种 面向 图 算法 的 分 布 式 编程 框架 ,采用 迭代 的 计算 模型 , 即 在 每 一 轮 , 每 
个 顶点 处 理 上 一 轮 收 到 的 消息 ,并 发 出 消息 给 其 他 顶点 ,更 新 自身 状态 和 拓扑 结构 (出 、 
AME. 

在 Pregel 计算 模式 中 ,输入 是 一 个 有 向 图 ,该 有 向 图 的 每 一 个 顶点 都 有 一 个 相应 的 、 
由 字符 串 描 述 的 vertex identifier。 每 一 个 顶点 都 有 一 些 属性 ,这 些 属性 可 以 被 修改 ,其 
初始 值 由 用 户 定 义 。 每 一 条 有 向 边 都 和 其 源 顶 点 关联 ,并 且 也 拥有 一 些 用 户 定 义 的 属性 
和 值 , 同 时 还 记录 了 其 目的 顶点 的 ID。 

一 个 典型 的 Pregel 计算 过 程 如 下 : 读 取 输入 ,初始 化 该 图 , 当 图 被 初始 化 好 后 运行 
一 系列 的 超 步 , 每 一 次 超 步 都 在 全 局 的 角度 上 独立 运行 ,直到 整个 计算 结束 ,输出 结果 。 
在 每 一 次 超 步 中 ,顶点 的 计算 都 是 并 行 的 ,并 且 执 行 用 户 定义 的 同一 个 函数 。 每 个 顶点 
可 以 修改 其 自身 的 状态 信息 或 以 它 为 起 点 的 出 边 的 信息 ,从 前 序 超 步 中 接收 消息 ,并 传 
送 给 其 后 续 超 步 ,或 者 修改 整个 图 的 拓扑 结构 。 边 在 这 种 计算 模式 中 并 不 是 核心 对 象 ， 
没有 相应 的 计算 运行 在 其 上 。 

算法 是 否 能 够 结束 取决 于 是 否 所 有 的 顶点 都 已 经 vote 标识 其 自身 达到 halt 状态 了 。 
在 superstep 0 中 ,所 有 顶点 都 置 于 active 状态 ,每 一 个 active 的 顶点 都 会 在 计算 的 执行 
中 在 某 一 次 的 超 步 中 被 计算 。 顶 点 通过 将 其 自身 的 状态 设置 成 halt 来 表示 它 已 经 不 再 
active。 这 就 表示 该 顶点 没有 进一步 的 计算 需要 进行 ,除非 被 其 他 的 运算 触发 ,而 Pregel 
框架 将 不 会 在 接 下 来 的 超 步 中 计算 该 项 点 ,除非 该 项 点 收 到 一 个 其 他 超 步 传送 的 消息 。 
如 果 顶 点 接收 到 消息 ,该 消息 将 该 项 点 重新 置 为 active, 那 么 在 随后 的 计算 中 该 项 点 必须 
再 次 deactive 其 自身 。 整 个 计算 在 所 有 顶点 都 达到 inactive 状态 并 且 没 有 消息 在 传送 的 
时 候 宣告 结束 。 这 种 简单 的 状态 机 制 在 图 9-4 中 进行 了 描述 。 

mite 





收 到 消息 
图 9-4 Pregel 的 顶点 状态 变化 
Pregel 选择 了 一 种 纯 消 息 传递 的 模式 ,忽略 远程 数据 读 取 和 其 他 共享 内 存 的 方式 ， 
这 样 做 有 下 面 两 个 原因 。 
CD 消息 的 传递 有 足够 高 效 的 表达 能 力 ,不 需要 远程 读 取 (remote reads) 。 
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(2) 对 性 能 的 考虑 。 在 一 个 集群 环境 中 ,从 远程 机 器 上 读 取 一 个 值 会 有 很 高 的 延迟 ， 
这 种 情况 很 难 避 免 。 消 息 传递 模式 通过 异步 和 批量 的 方式 传递 消息 ,可 以 缓解 这 种 远程 
读 取 的 延迟 。 
图 算法 其 实 也 可 以 写成 一 系列 的 链 式 MapReduce 作业 。 选 择 不 同 模式 的 原因 在 于 
可 用 性 和 性 能 。Pregel 将 项 点 和 边 在 本 地 机 器 上 进行 运算 , 仅 利用 网 络 来 传输 信息 ,而 
不 是 传输 数据 。MapReduce 本 质 上 是 面向 函数 的 ,所 以 将 图 算法 用 MapReduce 来 实现 
需要 将 整个 图 的 状态 从 一 个 阶段 传输 到 另 一 个 阶段 ,这 样 就 需要 许多 的 通信 和 随 之 而 来 
序列 化 、 反 序列 化 的 开销 。 另 外 ,在 一 连 串 的 MapReduce 作业 中 各 阶段 需要 协同 工作 
也 给 编程 增加 了 难度 ,这 样 的 情况 能 够 在 Pregel 的 各 轮 超 步 的 迭代 中 避免 。 


9.5 航班 机 场 状态 分 析 


图 用 来 建立 不 同 对 象 之 间 的 模型 。Spark GraphX 扩展 了 Spark RDD 模型 ,采用 了 
弹性 分 布 式 的 属性 图 。 一 个 属性 图 是 一 个 有 向 多 图 ,有 多 条 同时 并 行 的 边 ,这 样 在 多 个 
相同 的 节点 之 间 可 以 拥有 多 个 关系 。 下 面 采用 GraphX 来 分 析 航 班机 场 状态 ,图 9-5 是 
一 个 简单 的 城市 之 间 的 航班 信息 图 。 
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图 9-5 城市 之 间 的 航班 信息 








数据 集 来 自 http://www. transtats. bts. gov/DL _SelectFields. asp? Table ID = 
2368.DB Short. Name— On-Time, fifi JH 2015 年 1 月 份 的 航班 数据 ,每 个 航班 具有 表 9-1 
所 示 的 信息 。 


表 9-1 航班 样 例 信息 





Field Description Example Value 
dOfM( String) Day of month 1 
dOfW (String) Day of week 4 


carrier(String) Carrier code AA 
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Field Description Example Value 
tailNum( String) Unique identifier for the plane-tail number N787AA 
flnum (Int) Flight number 21 
org. id String) Origin airport ID 12478 
origin (String) Origin airport code JFK 
dest. id String) Destination airport ID 12892 
dest(String) Destination airport code LAX 
crsdeptime( Double) Scheduled departure time 900 
deptime( Double) Actual departure time 855 
depdelaymins( Double) Departure delay in minutes 0 
crsarrtime( Double) Scheduled arrival time 1230 
arrtime( Double) Actual arrival time 1237 
arrdelaymins( Double) Arrival delay minutes 7 
crselapsedtime( Double) Elapsed time 390 
dist(Int) Distance 2475 


现在 计算 多 少 个 机 场 有 飞机 飞 出 或 者 有 飞机 进入 机 场 ,并 进行 机 场 数 据 可 视 化 分 
析 。 具 体 的 源 代码 和 数据 在 GitHub 仓库 中 (https://github. com/alibook/alibook- 
bigdata. git), 
首先 需要 针对 每 个 机 场 建立 顶点 表 , 部 分 机 场 顶点 信息 如 表 9-2 所 示 。 
接着 构建 路 程 表 , 部 分 机 场 路 程 信息 如 表 9-3 所 示 。 
表 9-2 部 分 机 场 顶点 信息 表 9-3 部 分 机 场 路 程 信息 





ID Property srcid dstid Property 





10397 ATL 14869 14683 1087 


然后 建立 属性 图 ,这 样 就 可 以 分 析 有 多 少 个 航班 、 多 少 个 机 场 、 哪 个 机 场 最 繁忙 。 具 
体 的 spark-shell 命令 见 GitHub 上 的 代码 。 


9.6 图 计算 的 发 展 趋势 


随 着 互联 网 技术 的 不 断 发 展 ,社交 网 络 分 析 、 移 动 电话 网 络 分 析 的 规模 变 得 越 来 越 
大 ,处 理 复杂 度 越 来 越 高 .也 促进 产生 新 的 、 更 加 高 效 的 分 布 式 图 计算 框架 ,以 及 更 加 高 
效 的 图 计算 算法 。 同 时 ,以 图 作为 问题 模型 的 处 理 方式 也 在 渐渐 地 扩展 到 其 他 领域 。 
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9.7 习题 


1. 简 述 图 计算 。 

2. 什么 是 BSP 计算 模型 ? 简 述 BSP 的 工作 原理 。 

3. 简 述 Pregel 的 工作 原理 。 

4. 采用 Spark GraphX 图 计算 框架 编写 一 个 单 源 点 最 短路 径 图 计算 程序 ,并 在 分 布 
式 环境 下 运行 。 
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阿里 云 大 数据 计算 服务 平台 


10.1 MaxCompute 概述 


阿里 云 的 大 数据 计算 服务 (MaxCompute, 原 名 ODPS) 是 一 种 快速 的 ,完全 托管 的 
TB/PB 级 数据 仓库 解决 方案 。MaxCompute 向 用 户 提 供 了 完善 的 数据 导入 方案 以 及 多 
种 经 典 的 分 布 式 计 算 模型 ,能 够 更 快速 地 解决 用 户 海量 数据 计算 问题 ,有 效 降 低 企业 成 
本 ,并 保障 数据 安全 。 

MaxCompute 主要 服务 于 批量 结构 化 数据 的 存储 和 计算 ,可 以 提供 海量 数据 仓库 的 
解决 方案 以 及 针对 大 数据 的 分 析 建 模 服 务 。 随 着 社会 数据 收集 手段 的 不 断 丰 富 及 完善 ， 
越 来 越 多 的 行业 数据 被 积累 下 来 。 数 据 规模 已 经 增长 到 了 传统 软件 行业 无 法 承载 的 海 
量 数据 ( 百 GB、TB 乃至 PB) 级 别 。 在 分 析 海 量 数据 场景 下 ,由 于 单 台 服务 器 的 处 理 能 力 
的 限制 ,数据 分 析 者 通常 采用 分 布 式 计算 模式 。 但 分 布 式 计算 模型 对 数据 分 析 人 员 提 出 
了 较 高 的 要 求 , 且 不 易 维 护 。 使 用 分 布 式 计算 模型 ,数据 分 析 人 员 不 仅 需要 了 解 业 务 需 
求 , 还 需要 熟悉 底层 计算 模型 。 

MaxCompute 的 开发 目的 是 为 用 户 提 供 一 种 便捷 的 分 析 处 理 海量 数据 的 手段 。 用 
户 可 以 不 必 关 心 分 布 式 计算 细节 ,而 达到 分 析 大 数据 的 目的 。 

图 10-1 展示 了 MaxCompute 平台 的 体系 结构 ,数据 通过 DataHub 接 人 到 计算 引擎 。 
不 同 于 其 他 的 计算 分 布 式 系统 , MaxCompute 还 分 割 管理 层 和 运算 层 ,管理 层 封装 底层 
的 多 个 计算 集群 ,使 得 计算 引擎 可 以 当 作 一 个 运算 平台 ,可 以 打破 地 域 的 限制 ,做 到 真正 
的 跨 地 域 . 跨 机 房 的 大 型 运算 平台 。 还 有 一 个 重要 的 原因 是 基于 安全 性 的 要 求 。 系 统 只 





第 10 章 阿里 云 大 数据 计算 服务 平台 











在 计算 集群 内 执行 用 户 自 定义 的 函数 ,而 在 管理 层 进行 用 户 权 限 的 检查 ,在 利用 沙 箱 技 
术 隔 离 恶意 用 户 代 码 的 同时 ,通过 网 段 隔离 进一步 保障 用 户 数据 的 安全 性 。 








Ey 

[s=] DataHub 
pa 

n D 


;飞天 作业 /在 线 服务 : 





飞天 集群 : 存储 /计算 


图 10-1 MaxCompute 系统 架构 


10.2 MR 计算 


阿里 云 的 MR 计算 是 MaxCompute 提供 的 Java MapReduce 编程 模型 。 值 得 注意 的 
是 ,由 于 MaxCompute 并 没有 开放 文件 接口 ,用 户 只 能 通过 它 所 提供 的 Table 读 写 数据 ， 
因此 MaxCompute 的 MapReduce 模型 与 开源 社区 中 通用 的 MapReduce 模型 在 使 用 上 
有 一 定 的 区 别 。 这 样 的 改动 虽然 失去 了 一 定 的 灵活 性 ,例如 不 能 够 自 定义 排序 及 哈 希 算 
法 ,但 却 能 够 简化 开发 流程 ,免除 很 多 琐碎 的 工作 。 更 为 重要 的 是 ,MaxCompute 还 提供 
了 基于 MapReduce 的 扩展 计算 模型 , 即 MR2。 在 该 模型 下 ,一 个 Map 函数 后 可 以 接 入 
连续 的 多 个 Reduce PAR. 

HDFS 是 一 个 分 布 式 文件 系统 ,提供 了 可 靠 存 储 功 能 ,运行 在 廉价 服务 器 上 。HDFS 
集群 中 Client 和 NameNode 之 间 的 大 部 分 通信 通过 RPC 操作 来 完成 ,DataNode 和 
NameNode 之 间 的 心跳 机 制 也 是 通过 RPC 操作 来 完成 ,因此 RPC 是 HDFS 运行 组 件 的 
重要 部 分 。 这 里 需要 分 析 HDFS 集群 在 运行 过 程 中 产生 了 多 少 次 RPC 操作 。 

思路 很 简单 ,可 以 分 析 HDFS 集群 的 NameNode 运行 日 志 。 开 启 HDFS 集群 
NameNode 的 日 志 ,log 级 别 为 debug 级 别 ,这 样 可 以 看 到 RPC 操作 的 具体 信息 。 因 为 
每 次 RPC 操作 通过 Hadoop IPC 工具 操作 ,分 析 时 会 产生 包含 processOneRpc 这 样 的 关 
键 字 的 一 条 日 志 记录 ,所 以 . 找 出 NameNode 日 志文 件 中 包含 processOneRpc 的 记录 数 
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目 就 是 产生 的 RPC 操作 数目 。 利 用 MapReduce. f£ Map 阶段 针对 读 取 的 每 个 记录 进行 
关键 字 匹 配 ,如 果 匹 配 ,就 生成 关键 字 对 < processOneRpc, 1 >, 然后 在 Reduce 阶段 对 相 
同 关键 字 求 和 。 为 了 容易 读 取 , 对 产生 的 关键 字 对 逆转 。 该 程序 提供 了 类 似 Linux 下 
grep 命令 的 功能 ,可 以 查找 匹配 的 字符 串 。 

对 应 的 代码 如 下 ,详细 的 代码 可 以 在 GitHub(https: //github. com/alibook/alibook- 
bigdata. git) 上 找到 ,下 载 后 按照 下 面 的 操作 方式 就 可 以 运行 。 





public class odpsgrep { 


/ xx 
* RegexMapper 
**/ 

public static class RegexMapper extends MapperBase { 
private Pattern pattern; 


private int group; 


private Record word; 


private Record one; 


@Override 

public void setup(TaskContext context) throws IOException { 
JobConf job = (JobConf) context. getJobConf( ) ; 
pattern = Pattern. compile( job. get("mapred. mapper. regex" )) ; 
group = job. getInt("mapred. mapper. regex. group", 0); 


word = context. createMapOutputKeyRecord( ); 
one = context. createMapOutputValueRecord( ) ; 


one. set(new Object[] ( 1L }); 


@Override 
public void map(long recordNum, Record record, TaskContext context) throws IOException { 
for (int i = 0; i< record. getColumnCount(); ++i) { 
String text = record. get(i). toString(); 
Matcher matcher = pattern. matcher( text); 
while (matcher. find()) { 
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word. set (new Object[ ] { matcher. group(group) }); 


context. write(word, one); 


/ xx 
* LongSumReducer 


xe / 
public static class LongSumReducer extends ReducerBase ( 


private Record result = null; 


@Override 
public void setup(TaskContext context) throws IOException { 


result = context. createOutputRecord() ; 


(QOverride 
public void reduce(Record key, Iterator < Record» values, TaskContext context) throws 
IOException { 
long count = 0; 
while (values. hasNext()) { 
Record val = values.next(); 
count += (Long) val.get(0); 
j 
result.set(0, key. get(0)); 
result. set(1, count); 


context. write(result) ; 


/xx 
* 一 个 {@1ink Mapper}, 交换 键 和 值 
xx / 

public static class InverseMapper extends MapperBase { 
private Record word; 


private Record count; 
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@Override 
public void setup(TaskContext context) throws IOException { 
word = context. createMapOutputValueRecord() ; 


count = context. createMapOutputKeyRecord( ) ; 


/xx 
* 翻转 函数 ,将 输入 的 键 和 值 交换 
Pee 

(QOverride 


public void map(long recordNum, Record record, TaskContext context) throws IOException| 


word. set (new Object[ ] ( record.get(0).toString() }); 
count. set(new Object[] ( (Long) record.get(1) }); 


context.write(count, word); 


/* 
* IdentityReducer 
**/ 
public static class IdentityReducer extends ReducerBase { 


private Record result = null; 


@Override 
public void setup(TaskContext context) throws IOException { 


result = context. createOutputRecord(); 


/ v 将 所 有 键 和 值 写 到 输出 ** / 


@Override 

public void reduce(Record key, Iterator <Record> values, TaskContext context) throws 
IOException { 

result. set(0, key. get(0)); 


while (values. hasNext()) { 
Record val = values. next(); 


result. set(1, val.get(0)); 
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context. write(result); 


public static void main(String[] args) throws Exception { 
if (args. length < 4) { 
System. err. println("Grep < inDir >< tmpDir >< outDir >< regex> [<group>]"); 


System. exit(2); 


JobConf grepJob = new JobConf() ; 


grepJob. setMapperClass(RegexMapper. class) ; 
grepJob. setReducerClass(LongSumReducer. class); 


grepJob. setMapOutputKeySchema (SchemaUt ils. 
fromString("word:string")); 

grepJob. setMapOutputValueSchema(SchemaUtils. 
fromString("count:bigint")); 


InputUtils. addTable(TableInfo. builder(). 
tableName(args[0]).build(), grepJob) ; 

OutputUtils. addTable(TableInfo. builder(). 
tableName(args[1]).build(), grepJob) ; 


grepJob. set("mapred. mapper. regex", args[3]); 
5) { 
grepJob. set("mapred. mapper. regex. group", args[4]); 








if (args. length = 


RunningJob rjGrep = JobClient. runJob(grepJob) ; 


JobConf sortJob = new JobConf(); 


sortJob. setMapperClass(InverseMapper.class); 
sortJob. setReducerClass(IdentityReducer. class); 


sortJob. setMapOutputKeySchema(SchemaUt ils. 
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fromString("count:bigint")); 
sortJob. setMapOutputValueSchema(SchemaUtils. 


fromString("word:string")); 


InputUtils. addTable(TableInfo. builder(). 
tableName(args[1]).build(), sortJob) ; 
OutputUtils. addTable(TableInfo. builder(). 
tableName(args[2]).build(), sortJob) ; 


sortJob. setNumReduceTasks(1) ; // 写 一 个 文件 


sortJob. setOutputKeySortColumns(new String[] { "count" }); 


RunningJob rjSort = JobClient. runJob(sortJob) ; 








上 述 示例 代码 的 输入 数据 是 HDFS NameNode 节点 运行 日 志文 件 , 需 要 使 用 awk 转 
换 一 下 。 输 出 结果 也 就 是 HDFS 集群 的 RPC 操作 次 数 .存放 在 alibook_grep_out 表 中 。 

然后 编译 好 JAR 文件 ,生成 odpsgrep-0. 0. 1. jar 测试 包 文件 。 接 下 来 是 准备 好 统计 
RPC 操作 次 数 的 测试 表 和 环境 。( 注 意 , 下 面 使 用 的 ODPS 是 MaxCompute 的 原来 的 文字 ) 


1. F ODPS 客户 端 


在 阿里 云 官 网 下 载 odps _public 客户 端 (http://repo. aliyun. com/download/ 
odpsemd/0. 24. 1/odpscmd _ public. zip? spm = 5176. doc27991. 2. 2. 6bt8vL&-file = 
odpscmd. public. zip) ,在 文件 conf/odps. config. ini 中 更 改 Access Key 和 Access ID fii 
E ,添加 project 名 字 ( 需 要 在 MaxCompute 上 创建 一 个 project)。 在 本 实验 中 建立 的 
project 名 字 为 aliyunbook 。 

图 10-2 所 示 为 Access Key 信息 的 页 面 。 





| Aces Key (o 

Dacre 人 

Acco ay D Acces Ko Sec ss cmm 
aoma mayo = em 20141207 00:53:12 


图 10-2 Access Key 信息 的 页 面 
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2. 创建 表 


在 该 统计 RPC 操作 次 数 的 测试 用 例 中 ,输入 数据 和 输出 结果 都 存放 在 表 中 ,因此 需 
要 创建 表 。 启 动 ODPS 客户 端 创建 表 , 如 图 10-3 和 图 10-4 所 示 。 


[qzhong@dell122 bin]$ ./odpscmd 
Aliyun ODPS Command Line Tool 
Version 0.24.1 


@Copyright 2015 Alibaba Cloud Computing Co., Ltd. All rights reserved. 
odps@ aliyunbook>]N 





图 10-3 启动 ODPS 客户 端 


odps@ aliyunbook>create table alibook_grep_src(line string); 





OK 
odps@ aliyunbook>create table alibook_grep_tmp(key string, cnt bigint); 
OK 
odps@ aliyunbook»create table alibook grep out(key bigint, value string); 
OK 
图 10-4 创建 输入 和 输出 表 文件 
3. 添加 资源 
需要 上 传 本 地 编译 好 的 JAR 文件 ,如 图 10-5 所 示 


odps@ aliyunbook>add jar ~/odpsgrep-0.0.1.jar -f; 





OK: Resource ‘odpsgrep-0.0.1.jar' have been updated. 


图 10-5 f& JAR 文件 





接着 使 用 awk 转换 NameNode 运行 日 志文 件 的 数据 格式 ,如 图 10-6 所 示 o 





awk '{printf("%s %s\n", $5, $8)}' ~/hadoop-namenode.log > tmpl.log 


图 10-6 使 用 awk 转换 日 志 数 据 格 式 
然后 使 用 tunnel 导入 数据 ,如 图 10-7 所 示 。 


lodps@ aliyunbook>tunnel upload tmpl.log alibook_grep_src 
Upload session: 20161126223120c6399a0a01358f53 

Start upload: tmp1.log 

Using Xn to split records 

Total bytes :4523198 Split input to 1 blocks 
2016-11-26 22:31:15 scan block: '1' 


2016-11-26 22:31:15 scan block complete, blockid=1 
2016-11-26 22:31:15 upload block: '1' 

2016-11-26 22:31:16 upload block complete, blockid=1 
upload complete, average speed is 631 KB/s 

OK 





图 10-7 导入 数据 到 alibook_grep_src 表 中 





T 
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4. 运行 WordCount 


在 ODPS 中 执行 grep 操作 ,如 图 10-8 所 示 。 


urc 





dpsgrep alibo src alil 
图 10-8 PUT grep 操作 
运行 过 程 和 结果 如 图 10-9 和 图 10-10 所 示 


2016-11-26 22:37:43 M1_job0:0/0/1[0%] R2 1 job0:0/0/1[0%] 
2016-11-26 22 1 Ml job0:0/1/1[1005] R2_1_job0:0/0/1[0%] 
2016-11-26 22:38:00 M1_job0:0/1/1[100%] R2_1_job0:0/1/1[100%] 
Inputs: 
aliyunbook.alibook_grep_src: 99271 (107416 bytes) 
Outputs: 
aliyunbook.alibook_grep_tmp: 1 (560 bytes) 
M1 aliyunbook 201611261437329309gbkur8jc2 LOT 0 0 0 job0: 
Worker Count:1 
Input Records: 
input: 99271 (min: 99271, max: 99271, avg: 99271) 
Output Records: 
R2 1: 15580 (min: 15580, max: 15580, avg: 15580) 
R2 1 aliyunbook 20161126143732930gbkur8jc2 LOT 0 0 0 job0: 
Worker Count:1 
Input Records: 
input: 15580 (min: 15580, max: 15580, avg: 15580) 
Output Records: 





图 10-9 grep 运行 过 程 


odps@ aliyunbook>read alibook_grep_out; 


| 15580 | processOneRpc | 
+------------ +------------ 十 
odps@ aliyunbook>]Ë 





图 10-10 grep 运行 结果 


如 图 10-10 所 示 ,在 当前 的 HDFS 集群 中 运行 了 15 580 次 RPC 操作 


10.3 SOL 计算 


MaxCompute SQL 采用 标准 的 SQL 语法 、 更 高 效 的 计算 框架 支持 SQL 计算 模型 
执行 效率 比 普通 的 MapReduce 模型 更 高 。 需 要 注意 的 是 .MaxCompute SQL 不 支持 事 
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务 、 索 引 及 Update/ Delete 等 操作 。 
下 面 简单 介绍 一 个 SQL 语句 操作 实例 。 


1. 创建 表 的 操作 


创建 表 sale. detail 保存 销售 记录 ,该 表 使 用 销售 时 间 (sale_date) 和 销售 区 域 
(region) 作 为 分 区 列 。 





create table if not exists sale_detail( 
shop_name string, 
customer_id string, 


total_price double) 


partitioned by (sale_date string, region string) ; 
-- 创建 一 张 分 区 表 sale_detail 





2. 删除 表 的 操作 


其 代码 如 下 : 





create table sale detail drop like sale detail; 
drop table sale detail drop; 

一 若 表 存 在 ,成 功 返 回 ; 若 不 存在 ,异常 返回 

drop table if exists sale_detail_drop2; 


一 无 论 是 否 存 在 sale detail drop2 X, 均 成 功 返 回 





3. 更 新 表 中 的 数据 
其 代码 如 下 : 





insert overwrite table sale_detail_insert partition (sale date = '2013', region = 'china') 
select customer_id, shop_name, total_price from sale_detail; 

-- 在 创建 sale detail insert # Ht, 列 的 顺序 为 shop_name string—customer_id string— 
total_price bigint 


一 一 而 从 sale_detail 向 sale detail insert 插入 数据 时 , sale detail 的 插入 顺序 为 customer | 
id—shop_name—total_price 

—— 此 时 会 将 sale detail.customer id 的 数据 插入 sale detail insert.shop name 
—— 将 sale detail. shop name 的 数据 插入 sale detail insert.customer id 
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10.4 Graph 计算 


对 于 某 些 复杂 的 迭代 计算 场景 , 例如 K-Means, PageRank 等 ,如 果 仍 然 使 用 
MapReduce 来 完成 这 些 计算 任务 将 是 非常 耗 时 的 。MaxCompute 提供 的 Graph 模型 能 
够 非常 好 地 完成 这 一 类 计算 任务 。 

互联 网 的 快速 发 展 给 人 们 提供 了 很 大 的 便利 ,人 们 可 以 使 用 互联 网 提供 的 便捷 快速 
订购 到 自己 喜欢 的 东西 ,外 卖 业务 的 发 展 使 人 们 可 以 足 不 出 户 订购 到 自己 喜欢 的 美食 。 
对 于 外 卖 配送 人 员 而 言 , 以 最 快 的 速度 把 美食 送 到 客户 手中 可 以 赚 更 多 的 钱 ; 对 于 商家 
而 言 ,将 订单 物品 快速 送 到 客户 手中 可 以 吸引 更 多 的 客户 。 

下 面 以 外 卖 配送 人 员 为 例 , 求 出 他 把 订单 物品 送 到 客户 手中 的 最 短路 径 。 采 用 
dijstra 方法 计算 , 求 取 单 源 点 最 短路 径 。dijstra 方法 是 求解 单 源 点 最 短路 径 的 经 典 
算法 。 

最 短 距离 : 对 于 一 个 有 权重 的 有 向 图 G 二 (V,E), 从 一 个 源 点 s 到 汇 点 v 有 很 多 条 
路 径 , 其 中 边 权 之 和 最 小 的 路 径 称 作 从 s 到 v 的 最 短 距离 。 

算法 基本 原理 如 下 。 

CD 初始 化 。 源 点 s 到 s 自身 的 距离 (d[s] 二 0) ,其 他 点 u 到 s 的 距离 为 无 穷 (d[u] 二 00)。 

(2) 迭代 。 若 存在 一 条 从 u 到 v 的 边 , 那 么 从 s 到 v 的 最 短 距离 更 新 为 d[ v] =min(d[ v T. 
dLuj 十 weightCu，v)) ,直到 所 有 的 点 到 s 的 距离 不 再 发 生变 化 时 迭代 结束 。 

使 用 MaxCompute Graph 程序 进行 求解 : 每 个 点 维护 其 到 源 点 的 当前 最 短 距 离 值 ， 
当 这 个 值 变化 时 ,将 新 值 加 上 边 的 权 值 发 送 消息 通知 其 邻接 点 ,在 下 一 轮 迭 代 时 ,邻接 点 
根据 收 到 的 消息 更 新 其 当前 最 短 距离 , 当 所 有 点 的 当前 最 短 距离 不 再 变化 时 迭代 终止 。 

部 分 代码 如 下 : 


public class graph { 
public static final String START_VERTEX = "sssp. start. vertex. id"; 
public static class SSSPVertex extends 
Vertex < LongWritable, LongWritable, LongWritable, LongWritable> { 
private static long startVertexId = -1; 
public SSSPVertex() { 
this. setValue(new Longilritable(Long. MAX VALUE)); 
) 
public boolean isStartVertex( 
ComputeContext < LongWritable, Longiritable, LongWritable, LongWritable> context) ( 
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if (startVertexId == -1) { 
String s = context. getConfiguration( ).get(START_VERTEX) ; 
startVertexId = Long. parseLong(s) ; 
} 
return getId().get() == startVertexId; 
) 
(QOverride 
public void compute( 
ComputeContext < LongWritable, LongWritable, LongWritable, LongWritable> context, 
Iterable < LongWritable messages) throws IOException { 
long minDist = isStartVertex(context) ? 0 : Integer.MAX VALUE; 
for (LongWritable msg : messages) ( 
if (msg.get() < minDist) ( 
minDist = msg.get(); 


) 
if (minDist < this.getValue().get()) ( 
this. setValue(new LongWritable(minDist)); 
if (hasEdges()) ( 
for (Edge < LongWritable, LongWritable>e : this.getEdges()) { 
context. sendMessage(e. getDestVertexId(), new LongWritable(minDist 
* e.getValue().get())); 


} 


} else { 
voteToHalt(); 


} 
(QOverride 
public void cleanup( 
WorkerContext < LongWritable, LongWritable, LongWritable, LongWritable> context) 
throws IOException { 
context.write(getId(), getValue()); 


} 
public static class MinLongCombiner extends 
Combiner < LongWritable, LongWritable> { 
@override 
public void combine(LongWritable vertexId, LongWritable combinedMessage, 
LongWritable messageToCombine) throws IOException { 
if (combinedMessage. get() > messageToCombine. get()) { 
combinedMessage. set(messageToCombine.get() ) ; 
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} 
public static class SSSPVertexReader extends 
GraphLoader < LongWritable, LongWritable, LongWritable, LongWritable> { 
(QOverride 
public void load( 
LongWritable recordNum, 
WritableRecord record, 
MutationContext < LongWritable, LongWritable, LongWritable, LongWritable> context) 
throws IOException ( 
SSSPVertex vertex = new SSSPVertex(); 
vertex. setId((LongWritable) record.get(0)); 
String[] edges 7 record.get(1).toString(). split(","); 
for (int i = 0; i< edges. length; i++) ( 
String[] ss = edges[ i].split(":"); 
vertex. addEdge( new LongWritable(Long. parseLong(ss[0])), 
new LongWritable(Long. parseLong(ss[1]))); 
} 
context. addVertexRequest (vertex) ; 


) 
public static void main(String[] args) throws IOException { 
if (args.length « 2) ( 
System. out. println("Usage: < startnode >< input >< output >") ; 
System. exit( - 1); 
) 
GraphJob job = new GraphJob(); 
job. setGraphLoaderClass(SSSPVertexReader. class) ; 
job. setVertexClass(SSSPVertex. class); 
job. setCombinerClass(MinLongCombiner.class); 
job. set (START_VERTEX, args[0]); 
job. addInput (TableInfo. builder(). tableName(args[1]).build()); 
job. addOutput (TableInfo. builder().tableName(args[2]). build()); 
long startTime = System.currentTimeMillis(); 
job. run(); 
System. out. println("Job Finished in" 
+ (System.currentTimeMillis() - startTime) / 1000.0 + " seconds"); 
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以 上 是 采用 MaxCompute Graph 计算 单 源 点 最 短路 径 的 代码 ,详细 的 可 运行 代码 可 
以 从 GitHub 上 下 载 (https://github. com/alibook/alibook-bigdata. git). 
运行 以 上 代码 ,首先 要 创建 表 文 件 ,如 图 10-11 所 示 。 





odps@ aliyunbook>create table alibook_sssp_in(v bigint, es string); 
OK 
odps@ aliyunbook>create table alibook_sssp_out(v bigint, l bigint); 
OK 





图 10-11 创建 数据 表 文件 
然后 上 传 数据 文件 ,如 图 10-12 所 示 。 


odps@ aliyunbook>tunnel u -fd " " alibook sssp.txt alibook_sssp_in; 
Upload session: 20161126231815293c9b0a00af5257 

Start upload:alibook_sssp.txt 

Using \n to split records 

Total bytes:66 Split input to 1 blocks 

2016-11-26 23:18:10 scan block: '1' 

2016-11-26 23 0 scan block complete, blockid=1 
2016-11-26 23 0 upload block: '1' 

2016-11-26 23:18:11 upload block complete, blockid=1 
upload complete, average speed is 66 bytes/s 

OK 





图 10-12 上 传 数据 文件 
启动 ODPS( 即 MaxCompute) 任 务 运 行 分 析 , 如 图 10-13 所 示 


odps@ aliyunbook>jar -libjars graph-0.0.1.jar -classpath /home/qzhong/graph-0.0.1.jar alibook.graph.graph 1 
ook sssp in alibook 
Running job in console 


ID - 201611261 g 
http: //Logview.odps.a om/logvie e o 1126153428641gei 
C TdGF0ZW1l 
zL2FsaX11 
)T4NjQxZ2Vp YW 
RUNNING WAIT_WORKER_UP 
TERMINATED TERMINATE 





1 到 客户 5 的 最 短路 径 是 2km 








图 10-14 最短 路径 计 算 结果 
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10.5 习题 


1. 简 述 MaxCompute 的 功能 和 特性 。 

2. 利用 MaxCompute 编写 MR 程序 ,分 析 分 布 式 系统 运行 日 志 , 统 计 出 现 warning 
信息 和 error 信息 的 次 数 。 

3. 利用 MaxCompute 编写 Graph 计算 程序 ,计算 从 一 个 城市 到 另 一 个 城市 的 最 短 
航班 距离 。 


& DD = 
集群 资源 管理 与 调 讼 


随 着 互联 网 的 快速 发 展 和 大 数据 的 来 临 ,基于 数据 密集 型 应 用 的 集群 计算 框架 不 断 
涌现 ,并 且 这 些 计 算 框 架 都 只 面向 某 一 类 特定 领域 的 应 用 。 基 于 这 一 特点 ,互联 网 公司 
往往 需要 部 署 和 运行 多 个 计算 框架 ,从 而 为 每 个 应 用 选择 最 优 的 计算 框架 。 因 此 ,资源 
统一 管理 和 调度 系统 作为 集群 共享 平台 被 提出 来 。 当 前 比较 有 名 的 开源 资源 统一 管理 
和 调度 平台 有 两 个 ,一 个 是 Mesos, 另 外 一 个 是 YARN。 集 群 资源 统一 管理 和 调度 系统 
需要 同时 支持 多 种 不 同 的 计算 框架 ,如 何 管理 集群 计算 资源 和 不 同 计算 框架 间 的 资源 公 
平分 配 成 为 关键 技术 难点 。 不 同 计算 框架 的 作业 是 异 构 的 ,如 何在 不 同 框架 间 进 行 作业 
调度 以 充分 利用 集群 资源 和 提高 系统 吞吐 量 成 为 了 新 的 挑战 。 

相 比 于 “一 种 计算 框架 一 个 集群 ”的 模式 ,共享 集群 的 模式 具有 以 下 3 个 优点 : 

CL) 硬件 共享 .资源 利用 率 高 。 如 果 每 个 框架 一 个 集群 , 则 往往 由 于 应 用 程序 的 数量 
和 资源 需求 的 不 均衡 使 得 在 某 段 时 间 内 有 些 计算 框架 的 资源 紧张 ,而 另外 一 些 集群 资源 
比较 空闲 。 共 享 集群 模式 则 通过 多 框架 共享 资源 ,使 得 集群 中 的 资源 得 到 更 加 充分 的 
利用 。 

(2) 人 员 共 享 , 运 维 成 本 低 。 采 用 “一 种 计算 框架 一 个 集群 "的 模式 可 能 需要 多 个 管 
理 员 来 管理 和 维护 集群 ,进而 增加 运 维 成 本 ,而 在 共享 模式 下 只 需要 少数 几 个 管理 员 即 
可 完成 多 个 框架 的 统一 管理 。 

(3) 数据 共享 ,数据 复制 开销 低 。 随 着 数据 量 的 暴 增 , 跨 集群 的 数据 移动 不 仅 需要 花 
费 更 长 的 时 间 , 且 硬件 成 本 也 会 随 之 增加 ; 而 共享 集群 可 让 多 个 框架 共享 数据 和 硬件 存 
储 资源 ,这 将 大 大 减少 数据 复制 的 开销 。 
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11.1 集群 资源 统一 管理 系统 


简 而 言 之 ,集群 资源 统一 管理 系统 需要 支持 多 种 计算 框架 ,并 需要 具有 扩展 性 、 容 错 
性 和 高 资源 利用 率 等 几 个 特点 。 一 个 行 之 有 效 的 资源 统一 管理 系统 需要 包含 资源 管理 、 
分 配 和 调度 等 功能 。 图 11-1 是 统一 管理 与 调度 系统 的 基本 架构 图 。 
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图 11-1 资源 统一 管理 与 调度 系统 基本 架构 
基于 真实 资源 需求 的 资源 管理 方案 能 够 提升 集群 资源 的 利用 率 , 进 而 提升 吞吐 量 。 











11.1.1 集群 资源 管理 概述 


商业 服务 器 集群 目前 已 经 成 为 主要 的 计算 平台 ,为 互联 网 服务 和 大 量 的 数据 密集 型 
科学 计算 提供 了 强大 的 计算 能 力 。 基 于 上 述 需 求 ,研究 人 员 和 开发 人 员 设 计 和 实现 了 大 
量 的 分 布 式 计算 框架 ,简化 集群 程序 的 编写 ,最 典型 的 例子 包括 MapReduce, Dryad、 
MapReduce Online( 支 持 流 任务 )、Pregel( 图 计算 框架 )。 新 的 计算 框架 仍然 不 断 地 产生 ， 
但 是 没有 一 种 计算 框架 可 以 适合 所 有 的 计算 任务 ,所 以 目前 采取 的 方式 是 在 同一 个 集群 
上 运行 多 个 计算 框架 ,选取 一 个 最 优 的 。 多 个 计算 框架 之 间 共 享 一 个 服务 器 集群 可 以 共 
享 大 规模 数据 集 , 极 大 地 降低 因为 数据 集 规模 巨大 而 带 来 的 复制 开销 。 

当前 多 个 计算 框架 共用 一 个 服务 器 集群 的 方式 是 对 集群 进行 静态 划分 ,每 个 分 区 运 
行 一 个 计算 框架 ; 另外 一 种 方式 是 为 每 个 计算 框架 分 配 一 些 虚拟 机 VM, 但 是 这 些 方法 
都 没有 实现 高 利用 率 和 数据 共享 ,最 重要 的 原因 是 当前 这 些 解决 方法 的 资源 分 配 粒度 和 
当前 的 计算 框架 不 匹配 。 典 型 的 计算 框架 ,如 Hadoop 和 Dryad, 采 用 的 是 细 粒 度 的 资源 
共享 模型 ,计算 节点 把 资源 划分 成 多 个 “slot”, 并 且 一 个 Job HA ARMIES task 组 成 , 短 
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任务 实现 了 资源 的 高 利用 率 和 高 扩展 性 ,但 是 目前 的 大 多 数 计算 框架 基本 上 都 是 独立 开 
发 ,没有 一 个 在 多 个 计算 框架 之 间 细 粒度 共享 资源 的 方式 ,从 而 在 这 些 计算 框架 之 间 共 
享 资源 和 数据 变 得 更 加 困难 和 复杂 。 

因此 设计 一 种 集群 资源 管理 系统 支持 多 个 计算 框架 ,实现 集群 资源 共享 和 高 利用 
率 。 为 了 实现 这 一 目标 需要 解决 以 下 问题 : 

CL) 支持 多 种 不 同 的 计算 框架 。 不 同 的 计算 框架 采用 的 是 不 同 的 资源 共享 模型 、 不 
同 的 资源 调度 需求 ,不 同 的 通信 模式 以 及 不 同 的 任务 依赖 关系 , 既 要 支持 当前 计算 框架 ， 
也 需要 支持 以 后 的 计算 框架 。 

(2) 集群 资源 管理 系统 需要 支持 良好 的 扩展 性 。 当 前 的 集群 资源 拥有 几 万 台 计 算 节 
点 ,运行 着 几 百 个 Job ,一 次 有 几 百 万 个 task 同时 运行 。 

(3) 需要 具有 良好 的 容错 和 高 可 靠 性 。 





11.1.2 Apache YARN 


Apache Hadoop YARN(Yet Another Resource Negotiator, 另 一 种 资源 协调 者 ) 是 
一 种 新 的 Hadoop 资源 管理 器 , 它 是 一 个 通用 资源 管理 系统 ,可 为 上 层 应 用 提供 统一 的 资 
源 管理 和 调度 , 它 的 引入 为 集群 在 利用 率 、 资 源 统一 管理 和 数据 共享 等 方面 带 来 了 巨大 
的 好 处 。 

YARN 的 基本 思想 是 将 JobTracker 的 两 个 主要 功能 (资源 管理 和 作业 调度 /监控 ) 
分 离 ,主要 方法 是 创建 一 个 全 局 的 ResourceManager ( RM) 和 若干 个 针对 应 用 程序 的 
ApplicationMasterCAMD 。 这 里 的 应 用 程序 是 指 传 统 的 MapReduce 作业 或 DAG CH i) 
无 环 图 ) 作 业 。 

YARN 分 层 结构 的 本 质 是 ResourceManager。 这 个 实体 控制 整个 集群 并 管理 应 用 
程序 向 基础 计算 资源 的 分 配 。ResourceManager 将 各 个 资源 部 分 (计算 内存、 带宽 等 ) 精 
心地 安排 给 基础 NodeManager (YARN 的 每 个 节点 代理 )。ResourceManager 还 与 
ApplicationMaster 一 起 分 配 资源 ,与 NodeManager 一 起 启动 和 监视 它们 的 基础 应 用 程序 。 
在 此 上 下 文中 ,ApplicationMaster 承担 了 以 前 的 TaskTracker 的 一 些 角 色 , ResourceManager 
承担 了 JobTracker 的 角色 。 

ApplicationMaster 管理 一 个 在 YARN 内 运行 的 应 用 程序 的 每 个 实例 。Applica- 
tionMaster 负责 协调 来 自 ResourceManager 的 资源 ,并 通过 NodeManager 监视 容器 的 
执行 和 资源 使 用 (CPU、 内 存 等 的 资源 分 配 )。 

NodeManager 管理 一 个 YARN 集群 中 的 每 个 节点 。NodeManager 提供 针对 集群 中 
每 个 节点 的 服务 ,从 监督 对 一 个 容器 的 终生 管理 到 监视 资源 和 跟踪 节点 健康 。MRv1l 通 
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RL EE Map 和 Reduce 任务 的 执行 ,而 NodeManager 管理 抽象 容器 ,这 些 容 器 代表 
着 可 供 一 个 特定 应 用 程序 使 用 的 针对 每 个 节点 的 资源 。 如 果 要 使 用 一 个 YARN 集群 ， 
首先 需要 来 自 包含 一 个 应 用 程序 的 客户 的 请 求 。ResourceManager 协商 一 个 容器 的 必要 
资源 ,启动 一 个 ApplicationMaster 来 表示 已 提交 的 应 用 程序 。 通 过 使 用 一 个 资源 请 求 
协议 ,ApplicationMaster 协商 每 个 节点 上 供应 用 程序 使 用 的 资源 容器 。 在 执行 应 用 程序 
时 ,ApplicationMaster 监视 容器 直到 完成 。 当 应 用 程序 完成 时 , ApplicationMaster 从 
ResourceManager 注销 其 容器 .执行 周期 就 完成 了 。 

图 11-2 显示 了 在 YARN 上 运行 的 两 个 Application, 每 个 Application 有 一 个 
ApplicationMaster, 如 图 中 的 AM; 和 AM,。 每 个 ApplicationMaster 管理 每 个 应 用 的 每 
个 具体 任务 ,包括 任务 启动 ,任务 监控 \ 任 务 失 败 重启 。 图 11-2 显示 了 AM, 管理 3 ME 
务 , 具 体 包 括 Container: 、Containeri,* 、Containeri,s, AM, 管理 4 个 任务 ,具体 包括 


Containerz,; , Container;,; ,Container2,; , Containers, 。 








图 11-2 在 YARN 上 运行 Application 


下 面 从 YARN 资源 分 配 模型 和 协议 组 件 两 部 分 来 分 析 Y ARN 的 工作 原理 。 
1. 资源 分 配 模型 
在 早期 的 Hadoop 版 本 中 ,每 个 集群 中 的 节点 资源 被 静态 赋予 具体 的 slot 值 ,分 为 








第 11 章 集群 资源 管理 与 调度 











Map slot 和 Reduce slot, 这 些 slot 无 法 在 Map 任务 和 Reduce 任务 之 间 共 享 。 这 种 静态 
划分 Map slot 和 Reduce slot 的 方式 效果 不 佳 ,因为 MapReduce Job 运行 会 发 生 改变 。 
实际 情况 是 每 个 MapReduce Job 随机 提交 ,每 一 个 都 需要 提交 自己 的 Map slot 和 
Reduce slot 需求 ,这 样 很 难 使 集群 的 资源 利用 达到 最 优 。 

目前 解决 这 种 问题 的 方式 是 利用 Container 的 方法 ,这 是 一 种 更 具有 弹性 的 资源 模 
型 。 资 源 请 求 以 Container 的 方式 发 送 ,每 个 Container 里 面 的 属性 都 是 非 静态 的 。 使 用 
Container 的 方式 只 需要 对 Container 中 的 每 个 属性 定义 一 个 最 大 值 和 一 个 最 小 值 ,比如 
为 memory 属性 定义 最 大 值 和 最 小 值 。ApplicationMaster 请 求 容 器 Container. iE Xt 
应 的 属性 值 , 只 需要 最 大 值 和 最 小 值 。 


2. 协议 组 件 


这 里 通过 讲解 YARN 中 3 个 重要 的 通信 协议 protocol 来 理解 YARN 的 具体 工作 
原理 。 

1) Client-ResourceManager 

图 11-3 显示 了 一 个 Application 在 YARN 上 初始 启动 的 过 程 , 典 型 的 是 通过 Client 
All RM 通信 来 启动 Application。 第 1 步 ,Client 发 送 启动 Application 请 求 给 RM 创建 


Scheduler 









Client 






r| Application Submission Context 


! - Application(id,name), Queue, Priority, User.etc. 


Lei ---| Container Launch Context 


- App JAR, job files, security tokens, resource 





图 11-3 应 用 程序 启动 
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一 个 新 的 Application; 第 2 2b. RM 应 答 Client 的 请 求 ,返回 一 个 Applicationld 给 
Client; 第 3 步 , 在 收 到 来 自 RM 的 响应 后 ,Client 构建 Application Submission Context. 
信息 包括 Appld.Queue Priority 等 ,也 包括 Container Launch Context, 用 于 在 NM 上 启 
动 具 体 的 task。 

Client 提交 Application Context 启动 Application 之 后 ,可 以 发 送 Application 
Report 查询 请 求 给 RM 查询 具体 的 Application Report, RM 返回 请 求 结果 。 如 果 中 间 
出 现 其 他 问题 ,Client 可 以 取消 删除 该 应 用 ,如 图 11-4 中 的 步骤 6 所 示 。 


Scheduler 





yy AE 


图 11-4 应 用 Application 运行 


2) ResourceManager - ApplicationMaster 

当 RM 接受 来 自 Client 的 submission context 之 后 ,寻找 到 一 个 具体 有 效 的 
Container 满足 AM 的 需求 ,然后 在 具体 的 NM 上 启动 AM。 图 11-5 描述 了 在 NM 上 启 
动 AM 之 后 AM 启动 多 个 task 的 过 程 。 第 1 步 ,AM 向 RM 登记 ,这 个 过 程 包括 一 个 握 
手 (handshake) 过 程 以 及 发 送 RPC 端口 tracking URL 等 信息 ; 第 2 步 ,RM 返回 重要 信 
息 , 包 括 当 前 集群 的 min/max 资源 容量 (capacity)。AM 根据 min/max 资源 容量 
(capacity) 计 算 每 个 task 的 资源 请 求 ; 第 3 步 , 发 送 具 体 的 Container 请 求 ,同时 也 包括 
AM 释放 的 Containers 第 5 At. RM 基于 调度 策略 计算 请 求 资源 ,返回 满足 要 求 的 
Container; 第 6 步 , 当 完成 Application 时 ,AM 发 送 一 个 完成 的 消息 给 RM. 

3) ApplicationMaster-ContainerManager 

图 11-6 显示 了 AM(ApplicationMaster) 与 NM(NodeManager) 之 间 的 通信 。 第 1 
步 ,AM 根据 RM 返回 的 Container 信息 发 送 Container Launch Context 到 对 应 的 RM 
上 ; 当 对 应 的 Container 运行 时 ,AM 通过 (2) 和 (3) 获 取 对 应 的 Container 运行 时 信息 。 
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图 11-6 ”Application 监控 任务 运行 
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11.1.3 Apache Mesos 


Mesos 是 以 与 Linux 内 核 同 样 的 原则 创建 的 ,不 同 点 仅 在 于 抽象 的 层面 。Mesos 内 
核 运 行 在 每 一 个 机 器 上 ,同时 通过 API 为 各 种 应 用 提供 跨 数据 中 心 和 云 的 资源 管理 调度 
能 力 。 这 些 应 用 包括 Hadoop、Spark、Kafka、Elastic Search。 另 外 ,Mesos 还 可 配合 框架 
Marathon 来 管理 大 规模 的 Docker 等 容器 化 应 用 。 

图 11-7 显示 了 Mesos 的 主要 组 成 部 分 。Mesos 由 一 个 master daemon 来 管理 
Agent daemon 在 每 个 集群 节点 上 的 运行 ，Mesos Applications( 也 称 为 Frameworks) 在 
这 些 Agent 上 运行 tasks。 
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Master 来 获取 集群 资源 ; 另 一 个 是 在 Agent 


图 11-7 Mesos 架构 图 


Master 使 用 Resource Offers 实现 跨 应 用 细 粒 度 资源 共享 ,如 CPU ,内存 ,磁盘 、 网 络 
等 。Master 根据 指定 的 策略 来 决定 分 配 多 少 资源 给 计算 框架 ,如 公平 共享 策略 或 优先 级 
策略 。 为 了 支持 更 多 样 性 的 策略 ,Master 采用 模块 化 结构 ,这 样 就 可 以 方便 地 通过 插件 
形式 来 添加 新 的 分 配 模 块 。 
在 Mesos 上 运行 的 计算 框架 由 两 个 部 分 组 成 : 一 个 是 Scheduler, 通过 注册 到 


ZooKeeper 
Quorum 
manto P 


E 
! — Standby b 


Master 1 


节点 上 运行 的 Executor 进程 , 它 可 以 执行 


计算 框架 的 Task。Master 决定 为 每 个 计算 框架 提供 多 少 资源 ,通过 计算 框架 的 
Scheduler 来 选择 其 中 提供 的 资源 。 当 计算 框架 同意 了 提供 的 资源 时 , 它 通过 Master 将 
Task 发 送 到 提供 资源 的 Agent 上 运行 。 
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图 11-8 是 一 个 计算 框架 运行 在 Mesos 上 的 资源 供给 流程 ,步骤 如 下 : 

(1) Agentl 向 Master 报告 有 4 个 CPU 和 4GB 内 存 可 用 。 

(2) Master 发 送 一 个 Resource Offer 给 Frameworkl 来 描述 Agent] 有 多 少 可 用 

(3) FrameWorkl 中 的 FW Scheduler 会 答复 Master 有 两 个 Task 需要 运行 在 Agent] 
上 ,一 个 Task 需要 < 2 cpu.1 gb 内 存 二 "">, 另 外 一 个 Task 需要 < 1 cpu,2 gb 内 存 一""、。 

最 后 ,Master 发 送 这 些 Tasks 给 Agentl。 之 后 ,Agentl 还 有 一 个 CPU 和 1GB 内 存 
没有 使 用 ,所 以 分 配 模块 可 以 把 这 些 资源 提供 给 Framework2. 























Frameworkl Framework2 
Jobi | Job2 Jobl Job2 
FW Scheduler FW Scheduler 



































> 
@) <taskl. s1, 2cpu, 1gb, = > 
<task2, sl, lepu, 2gb, = > 
Allocation 
module 


Executor 









sl. 4cpu. 4gb, = > 










<fwl,taskl, 2cpu, Igb, = > 
<fw1, task2, Icpu, 2gb, …> 























图 11-8 资源 供给 
11.1.4 Google Omega 


Mesos, YARN 等 集群 管理 系统 采用 的 是 双 层 调度 器 , 相 比 独占 调度 器 (Monolithic 
scheduler) 具 有 更 高 的 并 发 度 ,但 是 它 具 有 以 下 缺点 : 

CD 运行 在 这 些 集群 管理 系统 上 的 计算 框架 无 法 知道 整体 集群 的 资源 使 用 情况 。 

(2) 并 发 粒度 小 ,采用 的 是 悲观 方式 的 并 发 控制 (pessimistic concurrent control) 。 

针对 上 述 双 层 调度 器 (two-level scheduler) 的 不 足 ,Omega 设计 了 共享 状态 调度 器 
(shared state scheduler)。 该 调度 器 将 双 层 调度 器 中 的 集中 式 资源 调度 模块 简化 成 了 一 
些 持 久 化 的 共享 数据 (状态 ) 和 针对 这 些 数据 的 验证 代码 ,而 这 里 的 “共享 数据 "实际 上 就 
是 整个 集群 的 实时 资源 使 用 信息 。 


会 大 数据 基础 及 应 用 


11.2 资源 管理 模型 


集群 资源 管理 模型 通常 由 两 个 部 分 组 成 , 即 资源 表示 模型 和 资源 分 配 模型 。 由 于 这 
两 个 部 分 是 耦合 的 ,所 以 优化 集群 资源 管理 时 需要 同时 结合 这 两 个 部 分 进行 考虑 。 资 源 
表示 模型 用 于 描述 集群 资源 的 组 织 方式 ,是 集群 资源 统一 管理 的 基础 。 从 狭义 上 来 讲 ， 
计算 资源 是 指 具 有 计算 能 力 的 资源 ,如 CPU 和 GPU 等 。 但 实际 上 ,对 系统 计算 有 影响 
的 资源 都 可 以 划分 到 计算 资源 的 范畴 ,包括 内 存 、 磁 盘 大 小 .I/O 和 网 络 带宽 等 。 合 理 的 
资源 表示 模型 可 以 有 效 地 利用 资源 ,提高 集群 的 利用 率 。 


11.2.1 基于 slot 的 资源 表示 模型 


集群 中 每 个 节点 的 资源 都 是 多 维 的 ,包括 CPU、 内 存 、 网 络 1/0 和 磁盘 L/O. Ju T nj 
化 资源 管理 问题 ,很 多 框架 (如 Hadoop) 引 入 “ 槽 位 ”(slot) 概 念 ,并 采用 slot 组 织 各 个 节 
点 上 的 计算 资源 。 实 际 上 ,基于 slot 的 资源 表示 模型 就 是 将 各 个 节点 上 的 资源 等 量 切 分 
成 若干 份 ,每 一 份 用 一 个 slot 表示 ,同时 规定 任务 可 以 根据 实际 需求 占用 多 个 slot。 通 过 
引入 “slot” 这 一 概念 ,各 个 节点 上 的 多 维度 资源 被 抽象 成 单一 维度 的 slot, 这 样 可 以 把 复 
杂 的 多 维度 资源 分 配 问 题 转化 成 简单 的 slot 分 配 问题 ,从 而 大 大 降低 了 资源 管理 问题 的 

更 进一步 说 ,slot 相当 于 任务 运行 “许可 证 ”。 一 个 任务 只 有 得 到 该 "许可 证 ”后 才能 
获得 运行 的 机 会 。 这 意味 着 每 个 节点 上 的 slot 数量 决定 了 该 节点 上 最 大 允许 的 任务 并 
发 度 。 同 时 为 了 区 分 不 同 任务 所 用 资源 量 的 差异 ,如 Hadoop 的 作业 被 分 为 Map Task 
和 Reduce Task 两 种 类 型 ,slot 则 被 分 为 Map slot 和 Reduce slot 两 种 类 型 ,并且 只 能 分 
别 被 Map Task 和 Reduce Task 使 用 。 


11.2.2 基于 最 大 最 小 公平 原则 的 资源 分 配 模型 


对 于 任何 共享 集群 的 系统 ,资源 分 配 都 是 一 个 至 关 重 要 的 模块 。 一 个 最 常用 的 分 配 
策略 是 最 大 最 小 公平 原则 ,其 最 早 用 于 控制 网 络 流量 ,以 实现 公平 分 配 网 络 带宽 。 最 大 
最 小 公平 策略 的 基本 含义 是 使 得 资源 分 配 的 最 小 分 配 量 尽 可 能 最 大 , 它 可 以 防止 任何 网 
络 流 被 “ 饿 死 ”, 同 时 在 一 定 程度 上 尽 可 能 地 增加 每 个 流 的 速率 。 因 此 ,最 大 最 小 公平 策 
略 被 认为 是 一 种 很 好 的 权衡 有 效 性 和 公平 性 的 自由 分 配 策略 ,在 经 济 、 网 络 领域 有 着 广 
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泛 的 应 用 ,由 其 演变 出 来 的 加 权 最 大 最 小 公平 模型 被 一 些 资源 分 配 策略 广泛 地 采用 ,如 
基于 优先 级 、 预 留 机制 和 限期 的 分 配 策略 。 最 大 最 小 公平 模型 同时 也 保证 分 配 隔 离 , 即 
用 户 确 保 接收 自己 的 分 配 量 而 不 用 考虑 其 他 用 户 的 需求 。 

基于 这 些 特 点 ,大 量 的 分 配 算法 被 提出 来 实现 不 同 准确 度 的 最 大 最 小 公平 模型 , 例 
如 轮 询 ,均衡 资源 共享 和 加 权 公 平 队列 等 。 这 些 算 法 被 应 用 于 各 种 各 样 的 资源 分 配 上 ， 
包括 网 络 带宽 .CPU 内存 以 及 二 级 存储 空间 。 但 这 些 公平 分 配 的 工作 主要 集中 在 单一 
资源 类 型 ,同样 ,在 多 类 型 资源 环境 和 需求 异 构 化 下 ,公平 合理 的 分 配 策略 也 很 重要 。 

为 了 支持 多 维度 资源 调度 , 越 来 越 多 的 分 配 算 法 被 提出 ,包括 主 资源 公平 调度 算法 ， 
该 算法 扩展 了 最 大 最 小 公平 算法 ,其 能 够 在 保证 分 配 公 平 的 前 提 下 支持 多 维度 资源 的 调 
度 。 在 DRE 算法 中 将 所 需 份 额 ( 资 源 比 例 ) 最 大 的 资源 称 为 主 资源 ,DRF 的 基本 设计 思 
想 则 是 将 最 大 最 小 公平 算法 应 用 于 主 资 源 上 ,进而 将 多 维 资源 调度 问题 转化 为 单 维 资源 
调度 问题 , 即 DRF 总 是 最 大 化 所 有 主 资源 占用 量 中 最 小 的 。 由 于 DRF 被 证 明 非 常 适合 
应 用 于 多 资源 和 复杂 需求 的 环境 中 ,因此 被 越 来 越 多 的 系统 所 采用 ,其 中 包括 Apache 
YARN 和 Apache Mesos。 


11.3 资源 调度 策略 


11.3.1 调度 策略 概述 


在 分 布 式 计算 领域 中 ,资源 分 配 问题 实际 上 是 一 个 任务 调度 问题 。 它 的 主要 任务 是 
根据 当前 集群 中 各 个 节点 上 的 资源 (包括 CPU、 内 存 和 网 络 ) 的 剩余 情况 与 各 个 用 户 作 业 
的 服务 质量 要 求 在 资源 和 作业 任务 之 间 做 出 最 优 的 匹配 。 由 于 用 户 对 作业 服务 质量 的 
要 求 是 多 样 化 的 ,分 布 式 系统 中 的 任务 调度 是 一 个 多 目标 优化 的 问题 。 更 进一步 说 , 它 
是 一 个 典型 的 NP-hard 问题 。 

通常 ,分 布 式 系统 都 会 提供 一 个 非常 简单 的 调度 机 制 一 一 FIFO(First In First Out), 
即 先 来 先 服务 。 在 该 调度 机 制 下 ,所 有 的 用 户 作业 都 被 提交 到 一 个 队列 中 ,然后 由 调度 
器 按照 作业 提交 时 间 的 先后 顺序 来 选择 将 被 执行 的 作业 。 但 随 着 分 布 式 计 算 框 架 的 普 
及 ,集群 的 用 户 量 越 来 越 大 ,不 同 用 户 提交 的 应 用 程序 往往 具有 不 同 的 服务 质量 要 求 , 典 
型 的 应 用 有 以 下 3 种 : 

A) 批 处 理 作业 。 这 种 作业 往往 耗 时 较 长 ,对 完成 时 间 一 般 没有 严格 要 求 , 如 数据 挖 
掘 .机 器 学 习 等 方面 的 应 用 程序 。 

(2) 交互 式 作 业 。 这 种 作业 期 望 能 及 时 返回 结果 .如 SQL 查询 (Hive) 。 
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CD 生产 性 作业 。 这 种 作业 要 求 有 一 定量 的 资源 保证 ,如 统计 值 计算 、 垃 圾 数据 分 
析 等 。 

此 外 ,不 同 应 用 程序 对 硬件 资源 的 需求 量 也 是 不 同 的 ,如 过 滤 / 统 计 类 作业 一 般 为 
CPU 密集 型 作业 ,而 数据 挖掘 、 机 器 学 习 的 作业 一 般 为 I/O 密集 型 作业 。 传 统 的 FIFO 
调度 算法 虽然 简单 明了 ,但 是 它 忽 略 了 不 同 作 业 对 资源 的 需求 差异 ,严重 时 会 影响 作业 
的 执行 。 因 此 ,传统 的 FIFO 调度 策略 不 仅 不 能 满足 多 样 化 需求 ,也 不 能 充分 利用 硬件 

为 了 克服 单 队 列 FIFO 调度 器 的 不 足 , 多 种 类 型 的 多 用 户 多 队列 调度 器 相继 出 现 。 
这 些 调度 策略 允许 管理 员 按 照应 用 需求 对 用 户 或 者 应 用 程序 分 组 ,并 为 不 同 的 分 组 分 配 
不 同 的 资源 量 ,同时 通过 添加 各 种 约束 防止 单个 用 户 或 应 用 程序 独占 资源 ,进而 满足 多 
样 化 的 QoS 需求 。 当 前 主要 有 两 种 多 用 户 作 业 调 度 器 的 设计 思路 : 第 一 种 是 在 一 个 物 
理 集群 上 虚拟 多 个 子 集群 ,典型 的 代表 是 HOD(Hadoop On Demand) 调 度 器 ; 另 一 种 是 
扩展 传统 调度 策略 ,使 之 支持 多 队列 多 用 户 , 这 样 不 同 的 队列 拥有 不 同 的 资源 量 ,可 以 运 
行 不 同 的 应 用 程序 ,典型 的 代表 是 Yahoo! 的 Capacity Scheduler 和 Facebook 的 Fair 
Scheduler。 


11.3.2 Capacity Scheduler 调度 


Capacity Scheduler 调度 器 是 解决 多 用 户 情况 下 共享 集群 资源 的 调度 方式 ,使 每 个 提 
交 的 计算 任务 都 可 以 在 合理 的 时 间 内 完成 。 

下 面 以 Hadoop 中 的 MapReduce 作业 为 例 来 介绍 Capacity Scheduler 调度 器 。 目 前 
很 多 公司 渐渐 采用 资源 池 的 方式 组 织 和 管理 资源 ,公司 下 属 的 多 个 部 门 机 构 如 果 需 要 使 
用 资源 则 从 总 的 资源 池 中 分 配 具体 配额 。 如 果 需 要 运行 Hadoop MapReduce 作业 任务 
在 这 些 共享 集群 资源 上 , 则 需要 良好 的 资源 调度 方式 。 

Capacity Scheduler 调度 的 思路 如 下 : 将 总 体 的 集群 资源 以 可 以 预测 和 简单 的 方式 
划分 到 公司 的 多 个 子 部 门 和 机 构 , 主 要 是 以 Job 队列 的 方式 ; 每 个 Job 队列 都 有 一 个 
capacity 的 保证 ,也 同时 提供 资源 弹性 功能 , 即 一 个 队列 未 使 用 的 资源 可 以 给 Job 过 载 的 
队列 使 用 ; 采用 这 种 资源 调度 方式 既 可 以 提高 系统 的 资源 利用 率 , 也 可 以 确保 所 有 Job 
的 正常 运行 。 举 个 简单 的 例子 ,假设 建立 了 5 个 Job 队列 , 则 每 个 Job 队列 将 会 拥有 
20% 的 计算 处 理 能 力 , 用 户 当 然 可 以 自己 定义 Job 应 放 到 哪个 Job 队列 中 。 

目前 Hadoop 中 实现 的 Capacity Scheduler 支持 以 下 特性 : 

(1) 等 级 队列 (Hierarchy Queue) 。 采 用 等 级 队列 的 方式 可 以 确保 所 有 的 空闲 资源 
在 所 有 用 户 中 共享 ,提高 资源 的 控制 能 力 。 
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(2) 容量 保证 (Capacity Guarantee)。 每 个 队列 都 有 一 定 比 例 的 资源 。 

(3) 安全 保证 (Security Guarantee)。 每 个 队列 都 有 ACL ,限制 可 以 存放 的 用 户 Job. 

(4) 弹性 (Elasticity)。 分 配给 队列 的 空闲 资源 超过 它 的 容量 ,多 余 的 空闲 资源 可 以 
分 配给 其 他 队列 。 

(5) 多 用 户 (Multi-tenancy)。 提 供给 每 个 应 用 ,用户 和 队列 的 资源 是 有 限制 的 ,防止 
它们 独占 整体 的 队列 资源 和 集群 资源 。 

(6) 可 操作 。 和 运行 时 配置 (可 以 在 运行 时 更 改 配置 ) 和 Drain Applicatin( 系 统管 理 员 
可 以 停止 队列 直到 现 有 的 应 用 完成 才 允 许 新 的 Job 添加 到 队列 中 ) 。 

(7) 基于 资源 的 调度 。 支 持 资源 密集 型 应 用 ,这 些 应 用 可 以 指定 高 于 默认 的 资源 需 
求 ,同时 协调 不 同 的 资源 需求 。 

表 11-1 是 Hadoop 中 Capacity Scheduler 调度 器 的 配置 。 


表 11-1 conf/yarn-site. xml 配置 


Property Value 


org. apache. hadoop. yarn. server. resourcemanager. 





yarn. resourcemanager. scheduler. class 


scheduler. capacity. CapacityScheduler 





下 面 是 具体 的 队列 配置 : 


< property > 
< name > yarn. scheduler. capacity. root. queues </name > 
<value >a, b,c </value> 
<description >The queues at the this level (root is the root queue). 
</description> 
</property> 


< property > 
< name > yarn. scheduler. capacity. root. a. queues </name > 
<value > al,a2</value> 
<description >The queues at the this level (root is the root queue). 
</description> 


</property> 


< property > 
< name> yarn. scheduler. capacity. root. b. queues </name > 
<value > bl, b2, b3 </value> 
<description> The queues at the this level (root is the root queue). 


</description> 





</property> 
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11.3.3 Fair Scheduler 调度 


公平 调度 是 一 种 赋予 作业 (Job) 资 源 的 方法 , 它 的 目的 是 让 所 有 作业 随 着 时 间 的 
推移 都 能 平均 地 获取 等 同 的 共享 资源 。 当 单独 一 个 作业 运行 时 , 它 将 使 用 整个 集群 。 
当 有 其 他 作业 被 提交 上 来 时 ,系统 会 将 任务 (task) 空 闲 时间 片 (slot) 赋 给 这 些 新 的 作 
业 , 以 使 每 一 个 作业 大 概 获取 到 等 量 的 CPU 时 间 。 与 Hadoop 默认 调度 器 维护 一 个 作 
业 队 列 不 同 ,这 个 特性 让 小 作业 在 合理 的 时 间 内 完成 的 同时 又 不 “ 饿 "到 消耗 较 长 时 间 
的 大 作业 。 它 也 是 一 个 在 多 用 户 间 共享 集群 的 简单 方法 。 公 平 共享 可 以 和 作业 优先 
权 搭 配 使 用 一 一 优先 权 像 权重 一 样 用 作 决 定 每 个 作业 所 能 获取 的 整体 计算 时 间 的 
比例 。 

公平 调度 器 按 资源 池 (pool) 来 组 织 作业 ,并 把 资源 公平 地 分 到 这 些 资 源 池 里 。 默 认 
情况 下 ,每 一 个 用 户 拥有 一 个 独立 的 资源 池 , 以 使 每 个 用 户 都 能 获得 一 份 等 同 的 集群 资 
源 而 不 管 他 们 提交 了 多 少 作 业 。 按 用 户 的 UNIX 群 组 或 作业 配置 (JobConf) 属性 来 设置 
作业 的 资源 池 也 是 可 以 的 。 在 每 一 个 资源 池内 会 使 用 公平 共享 (fair sharing) 的 方法 在 
运行 作业 之 间 共 享 容量 (capacity)。 用 户 也 可 以 给 予 资源 池 相 应 的 权重 ,以 不 按 比 例 的 
方式 共享 集群 。 

除了 提供 公平 共享 方法 外 ,公平 调度 器 还 提供 了 资源 池 中 最 小 使 用 资源 保证 ,这 种 
方式 在 特定 场合 和 生产 环境 下 可 以 起 到 很 有 效 的 作用 。 当 一 个 资源 池 包 含 作业 时 , 它 至 
少 能 获取 到 它 的 最 小 共享 资源 ,但 是 当 资 源 池 不 完全 需要 它 所 拥有 的 保证 共享 资源 时 ， 
额外 的 部 分 会 在 其 他 资源 池 间 进行 切 分 。 

在 常规 操作 中 , 当 提交 了 一 个 新 作业 时 ,公平 调度 器 会 等 待 已 运行 作业 中 的 任务 完 
成 以 释放 时 间 片 给 新 的 作业 。 但 是 公平 调度 器 也 支持 在 可 配置 的 超时 时 间 后 对 运行 中 
的 作业 进行 抢占 。 如 果 新 的 作业 在 一 定时 间 内 还 获取 不 到 最 小 的 共享 资源 ,这 个 作业 被 
允许 去 终结 已 运行 作业 中 的 任务 以 获取 运行 所 需要 的 资源 。 因 此 抢占 可 以 用 来 保证 “ 生 
产 ” 作 业 在 指定 时 间 内 运行 的 同时 也 让 Hadoop 集群 能 被 实验 或 研究 作业 使 用 。 另 外 , 作 
业 的 资源 在 可 配置 的 超时 时 间 (一般 设 置 大 于 最 小 共享 资源 超时 时 间 ) 内 拥有 不 到 其 公 
平 共享 资源 (fair sharing) 一 半 的 时 候 也 允许 对 任务 进行 抢占 。 在 选择 需要 结束 的 任务 
时 ,公平 调度 器 会 在 所 有 作业 中 选择 那些 最 近 运 行 起 来 的 任务 ,以 最 小 化 被 浪费 的 计算 。 
抢占 不 会 导致 被 抢占 的 作业 失败 ,因为 Hadoop 作业 能 “容忍 "丢失 任务 ,这 只 是 会 让 它们 
的 运行 时 间 更 长 。 

最 后 ,公平 调度 器 还 可 以 限制 每 个 用 户 和 每 个 资源 池 的 并 发 运行 作业 数量 。 当 一 个 
用 户 必须 一 次 性 提交 数 百 个 作业 时 ,或 当 大 量 作 业 并 发 执行 时 ,用 来 确保 中 间 数 据 不 会 
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塞 满 集群 上 的 磁盘 空间 ,这 是 很 有 用 的 。 设 置 作业 限制 会 使 超出 限制 的 作业 被 列 入 调度 
器 的 队列 中 进行 等 待 , 直 到 一 些 用 户 /资源 池 的 早期 作业 运行 完毕 。 系 统 会 根据 作业 优 
先 权 和 提交 时 间 的 排列 来 运行 每 个 用 户 /资源 池 中 的 作业 。 

以 下 是 Hadoop 中 配置 Fair Scheduler 的 方式 : 





< property > 


< name > mapred. jobtracker. taskScheduler </name > 


< value > org. apache. hadoop. mapred. FairScheduler </value > 


</property> 





实现 公平 调度 分 两 个 方面 : 计算 每 个 作业 的 公平 共享 资源 ,以 及 当 一 个 任务 的 时 间 
片 可 用 时 选择 哪个 作业 去 运行 。 

在 选择 了 运行 作业 之 后 ,调度 器 会 跟踪 每 一 个 作业 的 “缺额 一 一 作业 在 理想 调度 器 
上 所 应 得 的 计算 时 间 与 实际 所 获得 的 计算 时 间 的 差额 。 这 是 一 个 测量 作业 的 “不 公平 
待遇 的 度量 标准 。 每 过 几 百 毫秒 ,调度 器 就 会 通过 查看 各 个 作业 在 这 个 间隔 内 运行 的 任 
务 数 与 它 的 公平 共享 资源 的 差额 来 更 新 各 个 作业 的 缺额 。 当 有 任务 时 间 片 可 用 时 , 它 会 
被 赋 给 拥有 最 高 缺额 的 作业 。 但 有 一 个 例外 一 一 如 果 有 一 个 或 多 个 作业 都 没有 达到 它 
们 的 资源 池 容 量 的 保证 量 , 将 只 在 这 些 “ 贫 穷 ” 的 作业 间 进 行 选择 (再 次 基于 它们 的 缺 
额 ) ,以 保证 调度 器 能 尽快 地 满足 资源 池 的 保证 量 。 

公平 共享 资源 是 依据 各 个 作业 的 “权重 ”通过 在 可 运行 作业 之 间 平 分 集群 容量 计算 
出 来 的 。 默 认 权 重 是 基于 作业 优先 权 的 ,每 一 级 优先 权 的 权重 是 下 一 级 的 两 倍 (例如 ， 
VERY_HIGH 的 权重 是 NORMAL 的 4 倍 )。 但 是 ,权重 也 可 以 基于 作业 的 大 小 和 年 
龄 。 对 于 在 一 个 资源 池内 的 作业 ,公平 共享 资源 还 会 考虑 这 个 资源 池 的 最 小 保证 量 , 接 
着 再 根据 作业 的 权重 在 这 个 资源 池内 的 作业 间 划 分 这 个 容量 。 

在 用 户 或 资源 池 的 运行 作业 限制 没有 达到 上 限 的 时 候 , 做 法 和 标准 的 Hadoop 调度 
器 一 样 ,在 选择 要 运行 的 作业 时 ,首先 根据 作业 的 优先 权 对 所 有 作业 进行 排序 ,然后 再 根 
据 提交 时 间 进 行 排序 。 对 于 上 述 排 序 队 列 中 超出 用 户 / 资 源 池 限 制 的 作业 将 会 被 排队 并 
等 待 空闲 时 间 片 ,直到 它们 可 以 运行 。 在 这 段 时 间 内 ,它们 被 公平 共享 计算 忽略 ,不 会 获 
得 或 失去 缺额 (它们 的 公平 均 分 量 被 设 为 0)。 

抢占 是 定期 检查 是 否 有 作业 的 资源 低 于 其 最 小 共享 资源 或 低 于 其 公平 共享 资源 
的 一 半 。 如 果 一 个 作业 的 资源 低 于 其 共享 资源 的 时 间 足 够 长 , 它 将 被 允许 去 结束 其 他 
作业 的 任务 。 所 选择 的 任务 是 所 有 作业 中 最 近 运 行 起 来 的 任务 ,以 最 小 化 被 浪费 的 
计算 。 
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11.4 在 YARN 上 运行 计算 框架 


11.4.1 MapReduce on YARN 


由 于 MapReduce 的 JobTracker/TaskTracker 机 制 需要 通过 大 规模 的 调整 来 修复 它 
在 可 扩展 性 、 内 存 消耗 ,线程 模型 、 可 靠 性 等 上 的 缺陷 ,为 从 根本 上 解决 旧 MapReduce HE 
架 的 性 能 瓶颈 ,MapReduce 框架 需要 完全 重 构 ,图 11-9 是 新 的 YARN 系统 架构 图 。 重 
构 的 根本 思想 是 将 JobTracker 的 两 个 主要 功能 分 离 成 单独 的 组 件 ,这 两 个 功能 是 资源 管 
理 和 任务 调度 /监控 。 新 的 资源 管理 器 全 局 管理 所 有 应 用 程序 计算 资源 的 分 配 ,每 一 个 
应 用 的 ApplicationMaster 负责 相应 的 调度 和 协调 。ResourceManager 和 每 一 台 机 器 的 
节点 管理 服务 器 管理 用 户 在 这 人 台 机 器 上 的 进程 并 能 对 计算 进行 组 织 。 


" Node 
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图 11-9 YARN 系统 架构 图 
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事实 上 , 每 一 个 应 用 的 ApplicationMaster 是 一 个 详细 的 框架 库 , 它 结 合 从 
ResourceManager 获得 的 资源 和 NodeManager 协同 工作 来 运行 和 监控 任务 。 在 图 11-9 
中 ,ResourceManager 支持 分 层级 的 应 用 队列 ,这 些 队 列 享有 和 集群 一 定 比 例 的 资源 。 它 就 
是 一 个 调度 器 ,在 执行 过 程 中 不 对 应 用 进行 监控 和 状态 跟踪 。 同 样 , 它 也 不 能 重启 因应 
用 失败 或 者 硬件 错误 而 运行 失败 的 任务 。 

ResourceManager 是 基于 应 用 程序 对 资源 的 需求 进行 调度 的 ,每 一 个 应 用 程序 需要 
不 同类 型 的 资源 ,因此 就 需要 不 同 的 容器 。 资 源 包括 内 存 、.CPU 磁盘 、 网 络 等 。 资 源 管 
理 器 提供 调度 策略 , 它 负 责 将 集群 资源 分 配给 多 个 队列 和 应 用 程序 。 调 度 器 可 以 基于 现 
有 的 能 力 进行 调度 。 

在 图 11-9 中 ,NodeManager 是 每 一 台 机 器 框架 的 代理 ,是 执行 应 用 程序 的 容器 , 监 
控 应 用 程序 的 资源 使 用 情况 ,如 CPU 内存, 硬盘 、 网 络 等 ,并 且 向 调度 器 汇报 。 

每 一 个 应 用 程序 的 ApplicationMaster 的 职责 有 向 调度 器 索要 适当 的 资源 容器 、 运 
THES: .跟踪 应 用 程序 的 状态 ,监控 进程 .处理 任务 的 失败 原因 等 。 


11.4.2 Spark on YARN 


Spark 是 类 Hadoop MapReduce 的 通用 并 行 框架 。Spark 拥有 Hadoop MapReduce 
所 具有 的 优点 ,不 同 于 MapReduce 的 是 Job 中 间 输 出 结果 可 以 保存 在 内 存 中 ,从 而 不 再 
需要 读 / 写 磁 盘 , 因 此 Spark 能 更 好 地 适用 于 数据 挖掘 与 机 器 学 习 等 需要 迭代 的 
MapReduce 的 算法 。Spark Æ YARN 中 有 yarn-cluster 和 yarn-client 两 种 运行 模式 。 


1. yarn-cluster 


Spark Driver 首先 作为 一 个 ApplicationMaster 在 YARN 集群 中 启动 ,客户 端 提交 
给 ResourceManager 的 每 一 个 Job 都 会 在 集群 的 worker 节点 上 分 配 一 个 唯一 的 
ApplicationMaster, 由 该 ApplicationMaster 管理 全 生命 周期 的 应 用 。 因 为 Driver 程序 
在 YARN 中 运行 ,所 以 事先 不 用 启动 Spark Master/Client, 应 用 的 运行 结果 不 能 在 客户 
端 显示 (可 以 在 History Server 中 查看 ), 所 以 最 好 将 结果 保存 在 HDFS 中 ,客户 端的 终 
端 显示 的 是 作为 YARN 的 Job 的 简单 运行 状况 。 

yarn-cluster 的 运行 步骤 如 下 : 

(1) H Client 向 ResourceManager 提交 请 求 .并 上 传 JAR 到 HDFS E. 

(2) ResouceManager 向 NodeManager 申请 资源 .创建 Spark ApplicationMaster。 

(3) NodeManager 启动 Spark App Master 并 注册 。 

(4) Spark ApplicationMaster 从 HDFS 中 找到 JAR 文件 ,启动 DAGscheduler 和 
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YARN Cluster Scheduler, 
(5) ResourceManager 注册 申请 Container 资源 。 
(6) ResourceManager 通知 NodeManager 分 配 Container。 
(7) Spark ApplicationMaster 和 Container 进行 交互 ,完成 这 个 分 布 式 任务 。 


2. yarn-client 


在 yarn-client 模式 下 ,Driver 运行 在 Client 上 ,通过 ApplicationMaster 向 RM 获取 
资源 。 本 地 Driver 负责 与 所 有 的 Executor Container 进行 交互 ,并 将 最 后 的 结果 汇总 。 
结束 终端 ,相当 于 关闭 这 个 spark 应 用 。 客 户 端 的 Driver 将 应 用 提交 给 YARN 后 ， 
YARN 会 先后 启动 ApplicationMaster 和 Executor。 

ApplicationMaster 和 Executor 都 是 装载 在 Container 里 运行 的 , ApplicationMaster 
分 配 的 内 存 是 driver-memory, Executor 分 配 的 内 存 是 executor-memory。 同 时 ,因为 
Driver 在 客户 端 ,所 以 程序 的 运行 结果 可 以 在 客户 端 显示 , Driver 以 进程 名 为 
SparkSubmit 的 形式 存在 。 


11.4.3 YARN 程序 设计 


YARN 是 一 个 资源 管理 系统 ,负责 集群 资源 的 管理 和 分 配 。 如 果 想 将 一 个 新 的 应 用 
程序 运行 在 YARN 之 上 ,通常 需要 编写 两 个 组 件 , 即 Client 和 ApplicationMaster。 在 实 
际 应 用 中 专业 的 开发 人 员 编写 这 两 个 组 件 ,并 提供 给 上 层 的 应 用 程序 用 户 使 用 。 如 果 大 
量 应 用 程序 可 抽象 成 一 种 通用 框架 ,只 需 实 现 一 个 Client 和 一 个 ApplicationMaster, fA 
后 让 所 有 应 用 程序 重用 这 两 个 组 件 即 可 。 

通常 ,编写 一 个 YARN Application 涉及 下 面 3 个 PRC 协议 : 

(1) ClientRMProtocol。Client 通过 该 协议 将 应 用 程序 提交 给 ResourceManager 查 
询 应 用 程序 的 运行 状态 . 杀 死 应 用 程序 等 。 

(2) AMRMProtocol, ApplicationMaster 使 用 该 协议 向 ResourceManager 注册 、 申 
请 资源 以 运行 自己 的 各 个 任务 。 

(3) ContainerManager。ApplicationMaster 使 用 该 协议 要 求 NodeManager 启动 / 撤 
fli Container ,或 者 获取 各 个 Container 的 运行 状态 。 

5873 YARN 程序 的 步骤 如 下 : 


1. 编写 Client 


客户 端 通常 只 需要 与 ResourceManager 交互 ,具体 如 下 : 
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(1) 获取 Application Id。 客 户 端 通过 RPC 协议 ClientRMProtocol 向 ResourceMa- 
nager 发 送 应 用 程序 提交 请 求 
GetNewApplicationResponse。 

(2) 提交 ApplicationMaster。 将 启动 ApplicationMaster 所 需 的 全 部 信息 打包 到 数 
据 结 构 ApplicationSubmissionContext 中 ,所 需 信 息 主要 包括 Application Id, Application 
Name, Application Priority, Application f f& BA JJ] , Application 启动 用 户 名 、Application 
对 应 的 Container 信息 。 客 户 端 调用 ClientRMProtocol # submitApplication ( Applica- 





GetNewApplicationRequest, ResourceManager 返回 


tionSubmissionContext) 将 ApplicationMaster 提交 到 ResourceManager F, Resource- 
Manager 收 到 请 求 后 会 为 ApplicationMaster 寻找 合适 的 节点 ,并 在 该 节点 上 启动 它 。 


2. 编写 ApplicationMaster 


ApplicationMaster 需要 与 ResoureManager 和 NodeManager 交互 ,具体 步骤 如 下 : 

(1) 注册 。ApplicationMaster 首先 需要 通过 RPC 协议 AMRMProtocol 向 Re- 
sourceManager 发 送 注册 请 求 一 一 RegisterApplicationMasterRequest, 该 数据 结构 中 包 
& ApplicationMaster 所 在 节点 的 host, RPC port 和 TrackingUrl 等 信息 ,而 Resource- 
Manager 将 返回 RegisterApplicationMasterResponse, 该 数据 结构 中 包含 多 种 信息 ,包括 
该 应 用 程序 的 ACL 列表 ,资源 可 使 用 上 限 和 下 限 等 。 

(2) 申请 资源 。 根 据 每 个 任务 的 资源 需求 ,ApplicationMaster 向 ResourceManager 
申请 一 系列 用 于 运行 任务 的 Container. ApplicationMaster 使 用 ResourceRequest 类 描述 
每 个 Container. 一旦 为 任务 构造 了 Container. ApplicationMaster 就 会 使 用 RPC 函数 
AMRMProtocol # allocate 向 ResourceManager 发 送 一 个 AllocateRequest 对 象 , 以 请 求 
分 配 这 些 Container, ResourceManager 会 为 ApplicationMaster 返回 一 个 AllocateRe- 
sponse 对 象 ,该 对 象 中 的 主要 信息 包含 在 AMResponse 中 ,ApplicationMaster 会 不 断 追 
踪 已 经 获取 的 Container, 且 只 有 当 需 求 发 生变 化 时 才 允 许 重新 为 Container 申请 资源 。 

(3) 启动 Container。 当 ApplicationMaster 从 ResourceManager 收 到 新 分 配 的 Con- 
tainer 列表 后 ,使 用 RPC PRX ContainerManager = startContainer 向 对 应 NodeManager 
发 送 ContainerLaunchContext 以 启动 Container。 

ApplicationMaster 不 断 重复 步骤 (2) 和 步骤 (3), 直 到 所 有 任务 运行 成 功 , 它 会 调用 
AMRMProtocol#finishApplicationMaster. 以 告诉 ResourceManager 自己 运行 结束 。 

下 面 是 一 个 运行 在 YARN 上 的 简单 程序 。 设 定 场景 是 在 YARN 上 启动 一 个 shell 

Wn ,启动 的 AM(ApplicationMaster) 是 一 个 不 被 管理 的 AM, 采 用 上 面 描述 的 YARN 
程序 启动 步骤 编写 。 

首先 初始 化 一 个 YARN Client: 
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public boolean init(String[ ] args) throws ParseException { 


Options opts = new Options(); 
opts. add0ption("appname", true, 
"Application Name. Default value 一 UnmanagedAM") ; 
opts.addOption("priority", true, "Application Priority. Default 0"); 
opts. addOption( "queue", true, 
"RM Queue in which this application is to be submitted"); 
opts.addOption("master memory", true, 
"Amount of memory in MB to be requested to run the" 
"application master"); 

opts.addOption("cmd", true, "command to start unmanaged" 
"AM (required)"); 

opts.addOption("classpath", true, "additional classpath"); 

opts.addOption("help", false, "Print usage"); 


CommandLine cliParser = new GnuParser().parse(opts, args); 


if (args. length == 0) { 
printUsage(opts) ; 
throw new IllegalArgumentException( 


"No args specified for client to initialize"); 


if (cliParser. hasOption("help")) { 
printUsage(opts) ; 


return false; 


appName = cliParser. getOptionValue("appname", "UnmanagedAM" ) ; 
amPriority = Integer. parseInt(cliParser.getOptionValue("priority", "0")); 
amQueue = cliParser. getOptionValue("queue", "default") ; 


classpath = cliParser.getOptionValue("classpath", null); 


amCmd = cliParser. getOptionValue("cmd") ; 
if (amCmd == null) { 
printUsage(opts) ; 
throw new I] legalArgumentExcept ion( 
"No cmd specified for application master"); 
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YarnConfiguration yarnConf = new YarnConfiguration(conf) ; 
rmClient = YarnClient.createYarnClient() ; 


rnClient. init(yarnConf); 


return true; 








在 YARN 上 启动 一 个 AM(ApplicationMaster): 


public void launchAM(ApplicationAttemptId attemptId) 

throws IOException, YarnException { 

Credentials credentials = new Credentials(); 

Token < AMRMTokenIdentifier > token = 
rmClient.getAMRMToken(attemptId.getApplicationId()); 

// 服 务 将 是 空 的 ,但 没关系 

// 我 们 只 是 将 AMRMToken 传递 给 真正 的 AM 

// 最 终 设置 正确 的 服务 地 址 

credentials.addToken(token. getService(), token); 

File tokenFile = File.createTempFile("unmanagedAMRMToken","", 
new File(System. getProperty("user.dir"))); 

try { 

FileUtil. chmod(tokenFile. getAbsolutePath(), "600"); 
) catch ( InterruptedException ex) ( 
throw new RuntimeException(ex); 

} 

tokenFile.deleteOnExit(); 

DataOutputStream os = new DataOutputStream(new FileOutputStream(tokenFile, 
true)); 

credentials.writeTokenStorageToStream(os); 


os. close() ; 


Map<String, String» env = System.getenv(); 
ArrayList < String> envAMList = new ArrayList <String>(); 
boolean setClasspath = false; 
for (Map. Entry «String, String> entry : env.entrySet()) { 
String key = entry.getKey(); 
String value = entry.getValue(); 
if (key. equals( "CLASSPATH" )) { 
setClasspath = true; 
if(classpath != null) { 




















value = value + File. pathSeparator + classpath; 


} 


envAMList. add(key + "=" + value); 


if(!setClasspath && classpath!= null) { 
envAMList. add("CLASSPATH = " + classpath); 
) 


ContainerId containerId = ContainerId. newContainerId(attemptId, 0); 


String hostname = InetAddress. getLocalHost().getHostName( ) ; 

envAMList.add(Environment.CONTAINER ID.name() + "=" + containerId); 

envAMList.add(Environment.NM HOST.name() + "=" + hostname); 

envAMList.add(Environment.NM HTTP PORT.name() + "=0"); 

envAMList.add(Environment.NM PORT. name() + "=0"); 

envAMList.add(Environment.LOCAL DIRS.name() * "- /tmp"); 

envAMList.add(ApplicationConstants.APP SUBMIT TIME ENV * "-" 

* System.currentTimeMillis()); 

envAMList. add ( ApplicationConstants. CONTAINER _ TOKEN FILE  ENV NAME + 

tokenFile.getAbsolutePath()); 


String[] envAM = new String[envAMList. size()]; 


Process amProc = Runtime. getRuntime().exec(amCmd, envAMList.toArray(envAM)); 


final BufferedReader errReader - 
new BufferedReader( new InputStreamReader( 
amProc.getErrorStream(), Charset. forName("UTF — 8"))); 
final BufferedReader inReader = 
new BufferedReader( new InputStreamReader( 
amProc. getInputStream(), Charset. forName("UTF - 8"))); 


// 读 取 错 误 输 入 流 

// 因 为 这 将 释放 错误 流 缓冲 区 

Thread errThread = new Thread() { 
@Override 


public void run() { 
try { 
String line = errReader. readLine(); 
while( (line != null) && !isInterrupted()) { 
System. err.println(line); 


line = errReader. readLine(); 
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} 
} catch(IOException ioe) { 


LOG. warn( "Error reading the error stream", ioe); 


} 
}; 
Thread outThread = new Thread() { 
@Override 
public void run() { 
try { 
String line = inReader. readLine() ; 
while((line != null) && ! isInterrupted()) { 
System. out. print1n( line); 
line = inReader. readLine( ) ; 
} 
} catch( IOException ioe) { 


LOG. warn( "Error reading the out stream", ioe); 


} 
h 
try { 
errThread. start(); 
outThread. start(); 
) catch (IllegalStateException ise) ( ) 


// 等 待 进程 完成 , 并 检查 退出 代码 
try ( 
int exitCode = amProc. waitFor(); 
LOG. info("AM process exited with value: " * exitCode); 
} catch (InterruptedException e) { 
e. printStackTrace(); 
) finally ( 
amCompleted - true; 


try { 
// 确 保 错 误 线程 在 Windows 上 退出 
// 这 些 线程 有 时 会 卡 住 并 挂 起 执行 超时 
// 然 后 在 销毁 过 程 后 加 入 
errThread. join() ; 
outThread. join() ; 


errReader. close(); 
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inReader. close() ; 
} catch (InterruptedException ie) { 

LOG. info("ShellExecutor: Interrupted while reading the error/out stream", ie); 
} catch ( IOException ioe) { 


LOG. warn("Error while closing the error/out stream", ioe) ; 
} 


amProc. destroy(); 








在 终端 运行 以 下 命令 : 





bin/hadoop jar /home/qzhong/yarn - 0.0.1. jar alibook. yarn. UnmanagedAMLauncher - cmd "cat 
/etc/hosts" 








上 面 的 yarn-0. 0. 1. jar 为 Maven 编译 产生 的 JAR £i x ft 


命令 参数 。 图 11-10 所 示 为 运行 结果 


md 参数 为 需要 执行 的 








2 0 24 INFO yarn.UnmanagedAMLau Client 
INFO 
5 INFO client .RMPro: g 
5 INFO yarn ,Unmana : 9 s ontext for ASM 
Setting unmana 

16/11/22 03:01: a m er: Submitting application to ASM 
16/11/ mpl.YarnClientImpl: Submitted application applicati 5: 
16/11/22 0 0 yarn.Unmana, Launcher: Got application re , apple 
477880581089 Ot 0001, clientToAM x Diagnostics=, appMasterHost=N/A, appQueue=default, appMaster 
, appStartTime: e=ACCEPTED, distributedFinalState=UNDEFINED, appTrackingUrl=N/A, appUs 
16/11/22 03:01:26 n Launcher: Launching AM with application attempt id appattempt 1477880581q 
[00001 
16/11/22 03:01:2 € U Launcher: AM pro exited with value: 0 
127.0.0.1 localhost localhost4 localhost4.local 
11 localhost localhost6 localhost6.localdomain6 





图 11-10 YARN 应 用 的 





i 结果 
11.5 阿里 云 伏 义 调度 系统 


“飞天 ?是 阿里 巴巴 的 云 计算 平台 ,其 中 的 分 布 式 调度 系统 被 命名 为 “ 伏 义 ”( 代 码 名 
称 Fuxi) ,该 名 字 来 自我 国 古代 神话 人 物 。 伏 义 主 要 负责 管理 集群 的 机 器 资源 和 调度 并 
发 的 计算 任务 .目前 支持 离线 数据 处 理 (DAG Job) 和 在 线 服 务 (Online Service), X EJE 
分 布 式 应 用 (如 MaxCompute/OSS/OTS) 提 供 稳定 高效、 安全 的 资源 管理 和 任务 调度 服 
务 , 为 阿里 巴巴 集团 打造 数据 分 享 第 一 平台 的 目标 提供 了 强大 的 计算 引擎 。 








11.5.1 伏 义 调度 系统 架构 


伏 义 系统 在 设计 上 采用 Master/Slave 架构 ,如 图 11-11 所 示 , 该 系统 有 一 个 被 称 为 
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“ 伏 义 Master ”的 集群 控制 中 心 ,其 余 每 台 机 器 上 会 运行 一 个 叫 * 伏 义 Agent” 的 守护 进 
程 ,守护 进程 除了 管理 节点 上 运行 的 任务 以 外 ,还 负责 收集 该 节点 上 资源 的 使 用 情况 ,并 
将 之 汇报 给 控制 中 心 。 控 制 中 心 与 伏 义 Agent 之 间 使 用 心跳 机 制 ,以 监测 节点 的 健康 状 
态 。 当 用 户 向 伏 义 Master 提交 一 个 任务 时 , 伏 义 Master 会 调度 出 一 个 可 用 节点 在 其 上 
启动 任务 的 主 控 进 程 AppMaster, 主 控 进 程 随后 会 向 伏 义 Master 提出 资源 请 求 ,得 到 伏 
义 Master 分 配 的 资源 后 , AppMaster 通知 相应 节点 上 的 伏 闹 Agent 开始 运行 任务 
Worker。 伏 义 是 一 个 支持 多 任务 并 发 的 调度 系统 ,控制 中 心 一 一 伏 义 Master 负责 在 多 
个 任务 之 间 仲裁 ,支持 优先 级 ,资源 Quota 配额 和 抢占 。 
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图 11-11 伏 义 调度 系统 架构 


使 用 伏 义 ,用 户 可 以 运行 常见 的 MapReduce 任务 ,还 可 以 托管 在 线 服务 ,满足 不 同 
应 用 场景 的 需求 。 多 用 户 可 以 共享 集群 , 伏 义 支持 配置 分 组 的 资源 配额 ,限定 每 个 用 户 
组 可 以 使 用 的 计算 资源 ,对 于 紧急 任务 (如 重要 数据 报表 ) 可 以 提高 任务 优先 级 来 优先 使 
用 计算 资源 。 


11.5.2 5K 挑战 


伏 义 是 一 个 可 扩展 的 分 布 式 调度 系统 ,将 伏 义 调度 系统 扩展 到 集群 SK (5000) 6; H 
模具 有 很 大 的 挑战 性 ,中间 会 碰 到 很 多 陷阱 ,原因 主要 在 3 个 方面 : 规模 放大 效应 , 当 系 
统 扩展 到 数 千 节点 时 ,原本 非 瓶 颈 与 规模 成 正比 的 环节 ,其 影响 会 被 放大 ; 木 桶 效应 ,在 
很 多 时 候 ,系统 中 99% 的 地 方 都 被 优化 过 ,完成 剩 下 1% 的 优化 看 起 来 只 是 “锦上添花 ”， 
然而 这 1% 很 可 能 就 会 成 为 影响 系统 性 能 的 致命 的 瓶颈 ; 长 路 径 模块 依赖 ,有 些 请 求 处 
理 过 程 可 能 需要 跨越 多 个 模块 (包括 外 部 模块 ) ,而 外 部 模块 性 能 的 不 稳定 性 最 终 可 能 会 
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影响 到 这 个 请 求 的 处 理性 能 和 稳定 性 。 

伏 义 系统 扩展 到 SK 需要 多 方面 综合 考虑 ,这 给 伏 义 系统 带 来 规模 、 性 能 、 稳 定 、 运 维 
等 多 个 方面 的 技术 挑战 : 

CD 通信 消息 DDoS. FE 5000 规模 的 集群 中 ,不 同 进 程 之 间 的 RPC 请 求 数量 会 随 规 
模 猛 增 , 网 络 中 的 总 请 求 数 可 达 10 000 QPS, 极 易 造 成 系统 中 单 点 进程 的 消息 拥塞 ,从 而 
导致 请 求 处 理 严重 超时 。 另 外 ,消息 处 理 还 存在 队 头 阻塞 CHoL) 问 题 。 

(2) 关键 函数 OPS, (K ë Master 是 资源 调度 的 中 心 节点 ,内 部 关键 调度 函数 的 
OPS 必须 达到 极 高 的 标准 ,否则 可 能 会 因为 木 桶 效应 影响 到 集群 整体 的 调度 性 能 。 

(3) 故障 恢复 对 外 部 模块 依赖 。 伏 狠 Master 具有 对 用 户 透明 的 故障 恢复 功能 
(Failover) ,其 恢复 过 程 依赖 写 在 女 娲 ( 女 娲 是 飞天 平台 的 协同 系统 ,如 名 字 服 务 ) 的 
Checkpoint 上 。 因 此 ,其 整体 恢复 速度 会 受到 女 娲 访问 速度 的 影响 。 

针对 上 述 伏 义 SK 集群 规模 背景 ,采取 大 量 的 优化 工作 来 规避 可 能 的 问题 以 及 陷阱 ， 
具体 设计 到 架构 设计 、 实 现 细节 以 及 模块 依赖 。 针 对 每 个 具体 的 细节 ,从 底层 工作 原理 
深入 优化 ,找到 具体 的 性 能 瓶颈 。 


11.5.3 伏 义 优化 实践 


在 模块 依赖 性 能 优化 方面 , 伏 义 Master 支持 故障 恢复 ,在 重启 后 进行 故障 恢复 时 需 
要 从 女 娲 读 取 所 有 任务 的 描述 文件 (Checkpoint) ,以 继续 运行 用 户 任务 。 考 虑 到 之 前 女 
娲 服务 在 服务 器 端 对 文件 内 容 没 有 做 持久 化 , 伏 义 Master 在 读 取 了 Checkpoint 后 还 会 
再 写 一 次 女 娲 ,这 个 回 写 操作 性 能 依赖 于 女 娲 模块 。 在 5000 节点 的 集群 上 ,名 字 解 析 压 
力 的 显著 增加 导致 女 娲 在 Server 的 回 写 操作 上 也 出 现 了 性 能 下 降 问题 ,最 终 通 过 模块 依 
赖 传 递 到 了 伏 义 Master, 从 而 影响 了 故障 恢复 的 性 能 。 经 测试 观察 ,一 次 Checkpoint E 
写 就 消耗 70s, 这 大 大 降低 了 伏 义 系统 的 可 用 性。 

所 以 需要 对 伏 义 Master 故障 恢复 进行 优化 。 从 伏 义 Master 的 角度 而 言 , 在 故障 恢 
复 时 刚 读 取 的 Checkpoint 内 容 在 女 娲 服务 器 端 是 不 会 发 生 改 变 的 ,因此 读 取 Checkpoint 
后 没有 必要 回 写 到 服务 器 端 ,只 需要 通知 本 地 的 女 娲 Agent 让 其 代理 即 可 ,Agent 会 负 
责 服务 器 罕 机 重启 时 向 服务 器 推送 本 地 缓存 的 文件 内 容 。 于 是 和 女 娲 团队 的 同学 合作 ， 
在 女 娲 API 中 新 增加 一 个 只 写本 地 的 接口 .这样 伏 义 Master 规避 了 在 故障 恢复 时 回 写 
Checkpoint 的 性 能 风险 。 优 化 后 ,在 5000 节点 集群 和 并 发 5000 任务 的 测试 规模 下 ,一 
次 故障 恢复 中 处 理 Checkpoint 操作 仅 需 18s( 主 要 时 间 在 一 次 读 取 )。 可 见 在 分 布 式 系 
统 中 对 外 部 模块 的 依赖 哪怕 只 是 一 个 RPC 请 求 也 可 能 是 “性 能 陷阱 ,在 设计 和 实现 时 
应 尽量 避免 出 现在 关键 路 径 上 。 
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CD 在 关键 函数 优化 方面 。 伏 义 在 调度 资源 时 支持 多 个 维度 ,如 内 存 .CPU、 网 络 、 磁 
盘 等 ,所 有 的 资源 和 请 求 都 用 一 个 多 维 的 键 - 值 对 表示 ,例如 {Mem: 10. CPU; 50,net: 
40,disk: 60}。 因 此 ,可 以 将 判断 一 个 空闲 资源 能 否 满足 一 个 资源 请 求 的 问题 简单 地 抽 
象 成 多 维 向 量 的 比较 问题 ,例如 R: [rl, r2, r3, r4 77 Qi [ql, q2, q3, q4], 其 中 1、2、3、 
4 等 数字 表示 各 个 维度 , 当 且 仅 当 尺 的 各 个 维度 均 大 于 Q 时 才 判 断 R 二 Q 比较 次 数 决 定 
了 这 个 操作 的 时 间 复 杂 度 。 在 最 好 的 情况 下 只 需 比 较 一 次 即 可 得 出 结果 ,如 判断 [1，10， 
10, 10] 大 于 [2, 1. 1, 1] 失 败 ; 最 差 需要 D 次 (D 为 维度 数 ), 如 判断 [10, 10, 10, 1] 大 
于 [1, 1, 1, 10] 需 比较 4 次。 在 资源 调度 高 频 发 生 时 必须 对 这 里 的 比较 进行 优化 。 通 过 
Profiling 分 析 了 系统 运行 时 的 资源 空闲 与 请 求情 况 , 在 资源 充足 时 通常 值 最 大 的 维度 最 
难 满足 ,因此 在 资源 调度 场景 采用 基于 主键 的 优化 算法 : 将 每 个 资源 请 求 的 最 大 值 所 在 
维度 定义 为 该 向 量 的 主键 , 当 有 空闲 资源 时 首先 比较 主键 维度 是 否 满足 请 求 , 如 果 在 主 
键 上 满足 再 比较 其 他 维度 。 此 外 ,对 一 个 节点 上 排队 等 待 所 有 请 求 的 主键 值 再 求 一 个 最 
小 值 ,空闲 资源 如 果 小 于 该 最 小 值 则 无 须 再 比较 其 他 请 求 。 通 过 主键 算法 大 大 减少 了 资 
源 调 度 时 向 量 的 比较 次 数 , 伏 义 Master 一 次 调度 时 间 优 化 到 了 几 个 毫秒 。 

(2) 在 通信 性 能 优化 方面 。 消 息 从 到 达 伏 义 Master 进程 到 最 终 被 处 理 返 回 的 总 时 
间 主 要 包括 在 队列 中 等 待 的 时 间 和 实际 处 理 的 时 间 , 所 以 造成 系统 高 延迟 的 两 个 原因 是 
消息 处 理 本 身 的 OPS 下 降 .消息 堆积 在 待 处 理 队列 中 未 被 及 时 处 理 。 在 定位 到 消息 堆积 
的 问题 后 对 消息 通信 策略 进行 流 控 ,算法 简单 有 效 : 发 送 端 检 查 上 次 询问 的 请 求 结 果 已 
经 返回 ,表明 目前 伏 义 Master 请 求 处 理 较 为 顺畅 , 则 间隔 一 个 较 短 的 时 间 后 进行 下 一 次 
询问 。 反 之 ,如 果 上 次 询问 的 请 求 超时 ,说 明 伏 义 Master 较 忙 (例如 有 任务 释放 大 批 资 
源 待 处 理 等 ) ,发 送 端 则 等 待 较 长 时 间 后 再 发 送 请 求 。 通 过 这 种 自 适 应 流 控 的 通信 策略 
调整 ARSE Master 的 消息 堆积 问题 得 到 了 有 效 解决 。 


11.6 “习题 


. 集群 资源 统一 管理 系统 需要 支持 多 种 计算 框架 ,介绍 系统 应 具备 的 特点 。 
.简要 介绍 Slot 作业 的 分 类 。 

. 相 比 于 “一 个 计算 框架 一 个 集群 的 模式 ”, 简 述 共 享 集群 模式 的 3 个 优点 。 
. 简 述 分 布 式 计算 领域 的 资源 调度 策略 。 

- 简 述 YARN 的 工作 机 制 。 

. 简 述 阿里 云 伏 义 资源 调度 架构 。 
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数据 分 析 


12.1 数据 操作 与 绘图 


R 语言 作为 一 款 分 析 统 计 软 件 , 擅 长 对 数据 进行 分 析 处 理 , 下 面 介绍 R 的 数据 结构 
以 及 数据 的 输入 方法 。 


12.1.1 数据 结构 


R 的 运行 需要 借助 于 一 些 对 象 ,一 方面 是 借助 于 对 象 的 内 容 和 名 称 , 另 一 方面 是 借 
助 于 对 象 的 数据 类 型 , 即 属性 。 对 象 的 属性 对 于 作用 于 一 个 对 象 的 函数 的 表现 非常 重 
要 , 正 是 这 个 属性 为 对 象 提供 了 所 需要 的 信息 。 长 度 和 类 型 是 所 有 对 象 都 具备 的 两 个 内 
在 属性 ,其 中 长 度 指 的 是 对 象 中 元 素 的 数目 ; 类 型 指 的 是 对 象 中 元 素 的 基本 类 型 ,包括 字 
符 型 .数值 型 .复数 型 和 逻辑 型 4 种 。 除 此 之 外 还 有 其 他 不 能 用 来 表示 数据 的 类 型 ,如 函 
数 或 表达 式 ,其 中 对 象 分 别 通过 length 和 mode 函数 得 到 工作 长 度 和 类 型 。 例 如 执行 下 
面 的 命令 并 观察 相应 的 输出 ,如 图 12-1 所 示 。 

不 管 数据 类 型 是 哪 一 种 ,总 是 用 NA 来 表示 缺失 数据 。 可 用 指数 形式 来 表示 很 大 的 
数值 ; R 可 以 表示 无 穷 的 数值 ,如 用 Inf 和 -Inf 表示 士 co ,或 者 用 NaN 表示 不 是 数字 的 
值 。 当 输入 对 象 为 字符 型 的 值 时 需 在 值 的 两 端 加 上 双 引 号 。 如 果 在 值 中 出 现 需要 引用 
双 引 号 的 情况 时 ,在 引用 的 双 引 号 的 前 面 需 加 上 反 斜 杠 (\) ,这 两 个 合 在 一 起 的 字符 在 输 
出 显示 或 写 人 磁盘 时 会 按照 特殊 的 方式 进行 处 理 。 
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RS 1 
> mode (x) 

[1] “numer ic” 
> length(x) 


- “Gomphother ium”; compar <- TRUE; z <- li 
mode(compar); mode(z) 





图 12-1 简单 命令 及 输出 


R 拥有 许多 用 于 存储 数据 的 对 象 类 型 ,包括 向 量 . 数 组 ,标量 .矩阵 .数据 框 和 列表 。 
它们 在 存储 数据 的 类 型 .创建 方式 、 结 构 复杂 度 以 及 用 于 定位 和 访问 的 其 中 个 别 元 素 的 
标记 等 方面 均 有 所 不 同 。 

在 描述 数据 时 ,对 于 一 个 向 量 , 有 类 型 和 长 度 就 可 以 了 ,但 是 对 于 其 他 对 象 就 没有 这 
么 简单 了 ,需要 一 些 由 外 在 的 属性 给 出 的 额外 信息 。 在 这 些 属性 中 dim 表示 对 象 维度 ， 
如 一 个 2 行 2 列 的 矩阵 , 它 的 dim 是 一 对 数值 L2.2] ,长 度 是 4。 在 及 语言 的 数据 对 象 中 ， 
向 量 是 一 个 变量 ,数据 是 一 个 & 维 的 数据 表 , 因 子 是 一 个 分 类 变量 ; 而 矩阵 是 维 数 为 2 的 
数组 时 间 序 列 , 数 据 包含 例如 频率 和 时 间 等 的 一 些 额 外 的 属性 ,用 "ts" 来 表示 ,数据 框 必 
须 是 等 长 的 ,但 可 以 包含 不 同 的 数据 类 型 。 需 要 指出 的 是 ,数组 或 矩阵 中 的 所 有 元 素 的 
类 型 必须 是 同一 种 。 


= 














12.1.2 绘图 功能 


R 的 绘图 功能 非常 多 样 ,因为 每 个 绘图 函数 都 有 大 量 的 选项 ,这 使 得 图 形 的 绘制 十 
分 灵活 、 多 变 , 用 户 可 以 输入 demo(graphics) 或 者 demo(persp) 来 获得 详细 的 信息 。 绘 图 
函数 会 将 结果 直接 输出 到 一 个 “绘图 设备 ”上 , 即 一 个 绘图 的 窗口 或 一 个 文件 ,而 不 是 赋 
值 给 一 个 对 象 。 绘 图 函数 分 为 低级 绘图 函数 和 高 级 绘图 函数 两 种 ,低级 绘图 函数 是 在 现 
存 的 图 形 基础 上 添加 一 些 元 素 , 而 高 级 绘图 函数 则 是 直接 创建 一 个 新 的 图 形 。 

在 使 用 R 绘图 时 ,首先 要 打开 多 个 绘图 设备 ,绘图 设备 可 以 用 适当 的 函数 打开 。 如 
果 没 有 打开 绘图 设备 ,而 绘图 函数 开始 执行 .R 将 打开 一 个 窗口 来 展示 绘制 的 图 形 。 操 
作 系 统 决定 了 使 用 哪 种 绘图 设备 ,在 Windows 系统 下 称 为 windows, Æ% UNIX 系统 中 
则 使 用 x11。 因 为 x110 〇 可 以 作为 windows() 的 别名 ,所 以 在 Windows 系统 下 该 命令 仍 
然 有 效 ,无 论 使 用 的 是 哪 一 种 操作 系统 ,都 可 以 用 xl1() 来 打开 一 个 绘图 窗口 。 另 外 ,也 
可 以 用 pdf() 、png() 等 函数 打开 一 个 文件 作为 绘图 设备 ,最 后 打开 的 设备 将 成 为 当前 的 
绘图 设备 。 关 闭 一 个 设备 可 以 用 函数 dev. off() ,默认 为 关闭 当前 设备 ,否则 表示 关闭 由 
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参数 指定 编号 的 设备 。 


若 要 对 图 形 进行 分 割 ,用 户 可 以 使 用 函数 split. screen 分 割 当前 的 绘图 设备 , 如 
图 12-2 所 示 。 





图 12-2 screen 4#] 


可 以 将 设备 划分 为 两 个 部 分 ,用 scrren(1) 或 者 screen(2) 进 行 选择 。 若 要 删除 最 后 
绘制 的 图 形 ,可 以 使 用 erase. screen() 命 令 。 而 使 用 split. screen() 可 以 制作 复杂 的 布局 ， 
也 可 以 划分 设备 的 一 部 分 。 但 是 只 能 局 限于 图 形式 探索 性 数据 分 析 之 类 的 问题 使 用 这 
些 函 数 , 并 且 和 其 他 的 函数 不 兼容 ,不 能 用 于 多 个 绘图 设备 。 


12.2 初级 数据 分 析 


R 中 的 一 些 基 本 统计 分 析 函 数 可 以 从 stats 包 中 获得 ,包括 方差 分 析 、 广 义 线性 模型 
和 最 小 二 乘法 回归 的 线性 模型 、 非 线性 最 小 二 乘法 、 多 元 分 析 、 汇 总 统计 、 时 间 序 列 分 析 、 
层次 聚 类 和 统计 分 布 。 上 述 统计 方法 以 外 的 统计 方法 还 可 以 从 其 他 R 包 中 获得 ,下 面 从 
统计 分 析 中 非常 有 用 的 两 个 概念 (公式 和 泛 型 函数 ) 开 始 介绍 。 


1, 2x 


因为 几乎 所 有 函数 的 符号 都 一 样 ,所 以 公式 在 R 统计 分 析 里 非常 重要 。 


ath a 和 4 的 交互 效应 

a+b a Lb. 的 相 加 效应 

a*b 相 加 和 交互 效应 

—b 去 掉 因子 5b 的 影响 

1 y—1 拟 合 一 个 没有 因子 影响 的 模型 
=i y—=—1 表示 通过 原点 的 线性 回归 
^n 包含 到 nn 阶 的 所 有 交互 作用 
poly(a.n) a 的 n 阶 多 项 式 


可 以 看 出 ,在 R 公式 里 面 采用 的 运算 符 和 表达 式 里 面 使 用 的 运算 符 含义 不 尽 相同 。 
用 户 也 可 以 在 公式 中 包含 一 些 函 数 ,以 便 对 变量 进行 一 定 的 转换 。 


2. 泛 型 函数 


R 中 的 泛 型 (genetic) 是 用 来 解析 结果 的 ,是 对 特定 的 类 对 象 有 特定 行为 的 函数 。R 
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函数 将 输入 对 象 作为 输入 参数 ,这 一 点 不 同 于 很 多 其 他 统计 编程 语言 。 泛 型 函数 的 优势 
在 于 一 个 函数 对 所 有 类 的 使 用 格式 都 是 一 样 的 。 例 如 ,summary 是 最 常用 的 用 于 解析 统 
计 分 析 结 果 的 R 函数 , 它 可 以 显示 比较 细致 的 结果 。 对 于 作为 参数 的 对 象 是 线性 模型 
(“lm" 类 ) 还 是 方差 分 析 (“aov” 类 ), 显 示 的 信息 是 不 一 样 的。 

R 还 有 一 个 重要 的 特性 ,就 是 一 个 包含 分 析 结 果 的 对 象 常 常 是 一 个 列表 对 象 , 它 的 
类 定义 决定 了 它 的 结果 展示 方式 , 即 输入 参数 的 对 象 类 型 决定 一 个 函数 的 行为 。 泛 型 函 
数 通 常 是 调用 自 变 量 所 属 类 的 对 应 函数 ,其 中 调用 的 函数 称 为 方法 (method)。 


12.2.1 描述 性 统计 分 析 


在 比较 多 组 个 体 或 进行 观测 时 ,关注 的 重点 往往 是 各 组 的 ,而 不 是 样本 整体 的 描述 性 
统计 信息 。 同 样 ,在 R 中 完成 这 个 任务 有 很 多 种 方法 。 我 们 可 使 用 Motor Trend 杂志 的 车 





图 12-3 获取 统计 量 命令 





图 12-4 命令 输出 结果 
describe. by() 函数 不 允许 指定 任意 函数 ,所 以 它 的 普 适 性 较 低 。 若 存在 一 个 以 上 的 
分 组 变量 ,可 以 使 用 listCgroupvarl. groupvar2.**: ,groupvarN) 来 表示 它们 ,示例 如 图 
12-5 所 示 。 但 这 仅 在 分 组 变量 交叉 后 不 出 现 空白 单元 时 有 效 。 





图 12-5 describe 函数 


数据 分 析 人 员 对 于 展示 哪些 描述 性 统计 变量 以 及 结果 采用 什么 格式 都 有 自己 的 偏 
好 ,用 户 可 以 选择 最 合适 的 方式 .或 是 创造 属于 自己 的 方法 。 


12.2.2 回归 诊断 


使 用 lIm() 函 数 来 拟 合 回 归 模 型 ,通过 summary() 等 函数 获取 模型 的 参数 和 相关 统 
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计量 。 但 是 ,没有 任何 输出 能 告诉 用 户 模型 是 否 合适 ,对 模型 参数 推断 的 信心 依赖 于 它 
在 多 大 程度 上 满足 OLS 模型 统计 假设 。 为 数据 的 无 规律 性 或 者 错误 设 定 了 预测 变量 与 
相应 变量 的 关系 都 将 使 模型 产生 巨大 的 偏差 ,一 方面 可 能 得 出 某 个 预测 变量 与 相应 变量 
无 关 的 结论 ,但 事实 上 它们 相关 ; 另 一 方面 ,情况 可 能 恰好 相反 。 

回归 诊断 技术 向 用 户 提供 了 评价 回归 模型 适用 性 的 必要 工具 , 它 能 帮助 用 户 发 现 并 
纠正 问题 。 在 R 基础 安装 中 提供 了 大 量 检 验 回归 分 析 中 统计 假设 的 方法 。 最 常见 的 方 
法 就 是 对 Im() 返 回 的 对 象 使 用 plot() 函 数 , 可 以 生成 评价 模型 拟 合 情况 的 4 幅 图 形 。 


12.3 交互 式 数据 分 析 


12.3.1 交互 式 数据 分 析 的 特征 


与 非 交 互 式 数据 处 理 相 比 ,交互 式 数据 处 理 灵活 、 直 观 、 便 于 控制 。 系 统 与 操作 人 员 
以 人 机 对 话 的 方式 一 问 一 答 一 一 操作 人 员 提 出 请 求 ,数据 以 对 话 的 方式 输入 ,系统 便 提 
供 相应 的 数据 或 提示 信息 ,引导 操作 人 员 逐 步 完成 所 需 的 操作 ,直到 获得 最 后 处 理 结果 。 
采用 这 种 方式 ,存储 在 系统 中 的 数据 文件 能 够 被 及 时 地 处 理 修改 ,同时 处 理 结果 可 以 被 
立刻 使 用 。 交 互 式 数据 处 理 具备 的 这 些 特 征 能 够 保证 输入 的 信息 得 到 及 时 处 理 , 使 交互 
方式 继续 进行 下 去 。 


12.3.2 交互 式 数据 处 理 的 典型 应 用 


在 大 数据 环境 下 ,数据 量 的 急剧 膨胀 是 交互 式 数据 处 理 系统 面临 的 首要 问题 。 下 面 
以 信息 处 理 系 统领 域 和 互联 网 领域 作为 典型 应 用 场景 进行 介绍 。 

(1) 信息 处 理 系统 领域 。 在 信息 处 理 系统 领域 中 主要 体现 了 人 机 之 间 的 交互 。 传 统 
的 交互 式 数据 处 理 系统 主要 以 关系 型 数据 库 管理 系统 CDBMS ) 为 主 ,面向 两 类 应 用 , 即 联 
机 事务 处 理 (OLTP) 和 联机 分 析 处 理 (OLAP)。OLTP 基于 关系 型 数据 库 管理 系统 , 广 
泛 用 于 政府 、 医 疗 以 及 对 操作 序列 有 严格 要 求 的 工业 控制 领域 ;OLAP 基于 数据 仓库 系 
统 (data warehouse) ,广泛 用 于 数据 分 析 、 商 业 智能 (BID) 等 。 其 最 具 代表 性 的 处 理 是 数据 
钻 取 , 例 如 在 BI 中 可 以 对 数据 进行 切片 和 多 粒度 的 聚合 ,从 而 通过 多 维 分 析 技 术 实 现 数 
据 的 钼 取 。 目 前 ,基于 开源 体系 架构 下 的 数据 仓库 系统 的 发 展 十 分 迅速 ,以 Hive, Pig 等 
为 代表 的 分 布 式 数据 仓库 能 够 支持 上 千 台 服务 器 的 规模 。 

(2) 互联 网 领域 。 在 互联 网 领域 中 主要 体现 了 人 机 之 间 的 交互 。 随 着 互联 网 技术 的 
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发 展 , 传 统 的 简单 按 需 响应 的 人 机 互动 已 不 能 满足 用 户 的 需求 ,用 户 之 间 也 需要 交互 ,这 
种 需求 诞生 了 互联 网 中 交互 式 数据 处 理 的 各 种 平台 ,如 搜索 引擎 .电子 邮件 .即时 通信 工 
具 、 社 交 网 络 、 微 博 、 博 客 以 及 电子 商务 等 ,用 户 可 以 在 这 些 平台 上 获取 或 分 享 各 种 信息 。 
此 外 还 有 各 种 交互 式 问 答 平 台 ,如 百度 的 知道 ,新 浪 的 爱问 等 。 由 此 可 见 , 用 户 与 平台 
间 的 交互 变 得 越 来 越 容易 、 越 来 越 频 繁 。 这 些 平台 中 数据 类 型 的 多 样 性 使 得 传统 的 关系 
数据 库 不 能 满足 交互 式 数据 处 理 的 实时 性 需求 。 目 前 ,各 大 平台 主要 使 用 NoSQL 类 型 
的 数据 库 系统 来 处 理 交互 式 的 数据 , 如 HBase 采用 多 维 有 序 表 的 列 式 存储 方式 ， 
MongoDB 采用 JSON 格式 的 数据 嵌 套 存储 方式 。 大 多 数 NoSQL 数据 库 不 提供 Join 等 
关系 数据 库 的 操作 模式 ,以 增加 数据 操作 的 实时 性 。 


12.3.3 典型 的 处 理 系统 


交互 式 数 据 处 理 系统 的 典型 代表 是 Berkeley 的 Spark 系统 和 Google 的 Dremel 
系统 。 


1. Berkeley 的 Spark 系统 


Spark 是 一 个 基于 内 存 计算 的 可 扩展 的 开源 集群 计算 系统 。 针 对 MapReduce 的 不 
足 , 即 大 量 的 网 络 传输 和 磁盘 1/O 使 得 效率 较 低 ,Spark 使 用 内 存 进行 数据 计算 以 便 快速 
地 处 理 查 询 , 实 时 返回 分 析 结 果 。Spark 提供 比 Hadoop 更 高 层 的 API, 同样 的 算法 在 
Spark 中 的 运行 速度 比 Hadoop 快 10 一 100 4%. Spark 在 技术 层面 兼容 Hadoop 存储 层 
API, 可 访问 HDFS, HBase, SequenceFile 等 。Spark-Shell 可 以 开启 交互 式 Spark 命令 
环境 ,能 够 提供 交互 式 查询 。 

Spark 是 为 集群 计算 中 的 特定 类 型 的 工作 负载 设计 的 , 即 在 并 行 操作 之 间 重 用 工作 
数据 集 的 工作 负载 。Spark 的 计算 架构 具有 以 下 3 个 特点 : 

CD 拥有 轻 量 级 的 集群 计算 框架 。Spark 将 Scala 应 用 于 它 的 程序 架构 ,而 Scala 这 
种 多 范式 的 编程 语言 具有 并 发 性 .可 扩展 性 以 及 支持 编程 范式 的 特征 ,与 Spark 紧密 结 
合 能 够 轻松 地 操作 分 布 式 数 据 集 , 并 且 可 以 轻易 地 添加 新 的 语言 结构 。 

(2) 包含 大 数据 领域 的 数据 流 计算 和 交互 式 计 算 。Spark 可 以 与 HDFS 交互 取得 里 
面 的 数据 文件 ,同时 Spark 的 迭代 、 内 存 计 算 以 及 交互 式 计 算 为 数据 挖掘 和 机 器 学 习 提 
供 了 很 好 的 框架 。 

(3) 很 好 的 容错 机 制 。Spark 使 用 了 弹性 分 布 数据 集 (RDD) ,RDD 被 表示 为 Scala 
对 象 分 布 在 一 组 节点 的 只 读 对 象 集中 ,这 些 集合 是 弹性 的 ,保证 了 如 果 有 一 部 数据 集 丢 
失 可 以 对 丢失 的 数据 集 进 行 重建 





° 
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Spark 高 效 处 理 分 布 数据 集 的 特征 使 其 有 很 好 的 应 用 前 景 。 
2. Google 的 Dremel 系统 


Dremel 是 Google 研发 的 交互 式 数据 分 析 系 统 , 专 注 于 只 读 嵌 套数 据 的 分 析 。 
Dremel 可 以 组 建成 规模 上 千 的 服务 器 集群 ,处 理 PB 级 数据 。 传统 的 MapReduce 完成 
一 项 处 理 任务 最 短 需 要 分 钟 级 的 时 间 , 而 Dremel 可 以 将 处 理 时 间 缩 短 到 秒 级 ,作为 
MapReduce 的 有 力 补充 ,可 以 通过 MapReduce 将 数据 导入 到 Dremel 中 ,使 用 Dremel 来 
开发 数据 分 析 模 型 ,最 后 在 MapReduce 中 运行 数据 分 析 模 型 。 

Dremel 作为 大 数据 的 交互 式 处 理 系统 可 以 与 传统 的 数据 分 析 或 商业 智能 工具 在 速 
度 和 精度 上 相 媲 美 。Dremel 系统 有 以 下 5 个 特点 : 

(1) Dremel 是 一 个 大 规模 系统 。 在 PB 级 数据 集 上 要 将 任务 缩短 到 秒 级 ,需要 大 量 
的 并 发 ,而 磁盘 的 顺序 读 速度 在 100MB/s 左右 ,因此 在 1s 内 处 理 1TB 数据 就 意味 着 
至 少 需要 有 一 万 个 磁盘 的 并 发 读 。 但 是 机 器 越 多 ,出 问题 的 概率 越 大 ,如 此 大 的 集群 
规模 ,需要 有 足够 的 容错 考虑 才能 够 保证 整个 分 析 的 速度 不 被 集群 中 的 个 别 慢 ( 坏 ) 节 
点 影响 。 

(2) Dremel 是 对 MapReduce 交互 式 查询 能 力 不 足 的 有 力 补 充 。Dremel 利用 GFS 
文件 系统 作为 存储 层 , 经 常用 它 来 处 理 MapReduce 的 结果 集 或 建立 分 析 原 型 。 

(3) Dremel HRR EK (nested) MJ, Dremel 支持 一 个 嵌 套 的 数据 模型 ,类似 
于 Json。 对 于 处 理 大 规模 数据 ,不 可 避免 地 有 大 量 的 Join 操作 ,而 传统 的 关系 模型 显得 
有 心 无 力 ,Dremel 却 可 以 很 好 地 处 理 相关 的 查询 操作 。 

(4) Dremel 中 的 数据 是 用 列 式 存储 的 。 使 用 列 式 存储 ,在 进行 数据 分 析 的 时 候 可 以 
只 扫描 所 需要 的 那 部 分 数据 ,从 而 减少 CPU 和 磁盘 的 访问 量 。 同 时 , 列 式 存 储 是 压缩 友 
好 的 ,使 用 压缩 可 以 综合 CPU 和 磁盘 ,从 而 发 挥 最 大 的 效能 。 

(5) Dremel 结合 了 Web 搜索 和 并 行 DBMS 的 技术 。 首 先 , 它 借鉴 了 Web 搜索 中 的 
“查询 树 ” 的 概念 ,将 一 个 相对 巨大 、 复 杂 的 查询 分 割 成 较 小 、 较 简单 的 查询 ,分 配 到 并 发 
的 大 量 节点 上 。 其 次 ,与 并 行 DBMS 类 似 ,Dremel 可 以 提供 一 个 SQL-like 的 接口 ,就 像 
Hive 和 Pig。 


12.4 数据 仓库 与 分 析 


数据 仓库 和 数据 库 极其 相似 ,都 是 通过 数据 库 软件 基于 数据 模型 来 组 织 、 管 理 数据 。 
但 是 ,数据 库 更 专注 于 业务 交易 处 理 (OLTP) ,而 数据 仓库 更 专注 于 数据 分 析 (OLAP)， 
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因此 产生 的 数据 库 模 型 也 有 很 大 的 差异 。 数 据 仓库 强调 数据 分 析 的 效率 、 复 杂 查 询 的 速 
度数 据 之 间 的 相关 性 分 析 , 所 以 在 数据 库 模型 上 数据 仓库 喜欢 使 用 多 维 模型 ,从 而 提高 
数据 分 析 的 效率 。 从 产品 实现 层面 来 说 ,数据 仓库 倾向 于 使 用 列 式 存储 ,如 SAP IQ、 
SAP HANA, IBM, Oracle, Sybase, CA, NCR, Informix, Microsoft 和 SAS 等 有 实力 的 
公司 相继 (通过 收购 或 研发 的 途径 ) 推 出 了 自己 的 数据 仓库 解决 方案 ,BO 和 Brio 等 专业 
软件 公司 也 在 前 端 在 线 分 析 处 理工 具 市 场 上 占有 一 席 之 地 。 


12.4.1 数据 仓库 的 基本 架构 


数据 仓库 用 于 构建 面向 分 析 的 集成 化 数据 环境 ,为 企业 提供 决策 支持 。 其 实数 据 仓 
库 本 身 并 不 “生产 "任何 数据 ,同时 自身 也 不 需要 “消费 ”任何 数据 ,数据 来 源 于 外 部 ,并 且 
开放 给 外 部 应 用 ,因此 数据 仓库 的 基本 架构 主要 包含 数据 流入 与 流出 的 过 程 ,可 以 分 为 3 
层 一 一 源 数据 、 数 据 仓库 .数据 应 用 ,如 图 12-6 所 示 。 
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图 12-6 数据 仓库 的 基本 架构 
12.4.2 数据 仓库 的 实现 步 又 


1. 确定 用 户 需求 

根据 终端 用 户 的 需求 ,为 数据 仓库 中 存储 的 数据 建立 模型 。 通 过 数据 模型 可 以 得 到 
企业 完整 而 清晰 的 描述 信息 ,数据 模型 是 面向 主题 建立 的 ,同时 又 为 多 个 面向 应 用 的 数 
据 源 的 集成 提供 了 统一 的 标准 。 数 据 仓库 的 数据 模型 一 般 包括 企业 的 各 个 主题 域 . 主 题 
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域 之 间 的 联系 、 描 述 主题 的 码 和 属性 组 。 
2. 设计 和 建立 数据 库 


设计 和 建立 数据 库 是 成 功 创建 数据 仓库 的 一 个 关键 步骤 ,因为 涉及 的 数据 来 自 多 种 
数据 源 ,并 且 要 把 它们 合并 成 一 个 单独 的 逻辑 模型 。 不 像 OLTP 系统 那样 以 高 度 的 正规 
化 形式 存储 数据 ,数据 仓库 以 一 种 非常 非 正 规 化 的 形式 存储 数据 以 便 提高 查询 的 性 能 。 
数据 仓库 经 常 使 用 星 形 模式 和 雪花 形 模式 来 存储 数据 ,作为 OLAP 工具 管理 的 合计 基 
础 ,以 便 尽 可 能 快 地 响应 复杂 查询 。 

星 形 模式 通过 使 用 一 个 包含 主题 的 事实 表 和 多 个 包含 事实 的 非 正 规 化 描述 的 维度 
表 来 执行 典型 的 决策 支持 查询 。 一 旦 创建 了 事实 表 , 那 么 就 可 以 使 用 OLAP 工具 预先 计 
算 常用 的 访问 信息 。 星 形 模式 是 一 种 关系 型 数据 库 结 构 , 在 该 模式 的 中 间 是 事实 表 , 周 
是 次 要 的 表 , 数 据 在 事实 表 中 维护 ,维度 数据 在 维度 表 中 维护 。 每 一 个 维度 表 通 过 一 
个 关键 字 直 接 与 事实 表 关 联 。 维 度 是 组 织 数 据 仓 库 数据 的 分 类 信息 ,例如 时 间 、 地 理 位 
置 \ 组 织 等。 维度 用 于 父 层 和 子 层 这 类 分 层 结构 。 例 如 ,地 理 位 置 维 度 可 以 包含 国家 、 城 
市 等 数据 。 因 此 ,在 该 维度 表 中 ,纬度 由 所 有 的 国家 、 所 有 的 城市 组 成 。 

为 了 支持 这 种 分 层 结构 ,在 维度 表 中 需要 包括 每 一 个 成 员 与 更 高 层次 上 纬度 的 关 
系 。 维 度 关 键 字 是 用 于 查询 中 心事 实 表 数据 的 唯一 标识 符 。 维 度 关键 字 就 像 主键 一 样 ， 
把 一 个 维度 表 与 事实 表 中 的 一 行 链接 起 来 。 这 种 结构 很 容易 构造 复杂 的 查询 语句 并 且 
支持 决策 支持 系统 中 向 下 挖掘 式 的 分 析 。 事 实 表 包含 了 描述 商业 特定 事件 的 数据 ,例如 
银行 业务 或 者 产品 销售 。 事 实 表 还 包含 了 任何 数据 合计 ,例如 每 一 个 地 区 每 月 的 销售 情 
况 。 一 般 情况 下 .事实 表 中 的 数据 是 不 允许 修改 的 ,新 数据 只 是 简单 地 加 进去 。 维 度 表 
包含 了 用 于 参考 存储 在 事实 表 中 数据 的 数据 ,例如 产品 描述 、 客 户 姓 名 和 地 址 、 供 应 商 信 
息 等 。 把 特征 信息 和 特定 的 事件 分 开 , 可 以 通过 减少 在 事实 表 中 扫描 的 数据 量 提高 查询 
性 能 。 维 度 表 不 包含 与 事实 表 同 样 多 的 数据 ,维度 数据 可 以 改变 ,例如 客户 的 地 址 或 者 
电话 号 码 改 变 了 。 

通过 降低 需要 从 磁盘 读 取 数 据 的 数据 量 , 星 形 模式 设计 有 助 于 提高 查询 性 能 。 查 询 
语句 通过 分 析 比 较 小 的 维度 表 中 的 数据 来 获取 维度 关键 字 , 以 便 在 中 心 的 事实 表 中 索 
引 , 可 以 降低 扫描 的 数据 行 。 

在 转换 OLTP 数据 库 模式 到 星 形 模式 时 ,涉及 的 步骤 如 下 : 

CD 确定 事实 表 和 维度 表 。 

(2) 设计 事实 表 。 

(3) 设计 维度 表 。 

(4) 实现 数据 库 设 计 。 
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3. 提取 和 加 载 数据 


把 操作 系统 中 的 数据 提取 出 来 然后 加 载 到 数据 仓库 中 ,其 随 着 复杂 性 的 变化 而 变 
化 。 如 果 在 数据 源 中 的 数据 和 将 要 出 现在 数据 仓库 中 的 数据 直接 关联 ,那么 这 个 进程 非 
常 简单 。 这 个 进程 也 可 能 非常 复杂 ,例如 数据 源 的 数据 驻 留 在 多 个 异 构 系统 中 ,并 且 在 
加 载 数据 之 前 需要 大 量 地 转变 格式 和 修改 。 

1) 校 验 数 据 

在 数据 从 OLTP 系统 提取 之 前 确保 数据 完全 有 效 很 重要 ,应 该 由 商业 分 析 人 员 确 定 
数据 源 是 有 效 的 。 对 数据 的 任何 变化 应 该 在 经 营 系统 中 改变 ,而 不 是 在 数据 仓库 中 。 校 
验 数据 是 非常 耗 时 的 ,通过 写 存储 过 程 检查 数据 的 域 完整 性 来 自动 化 校 验 进程 。 然 而 ， 
手工 校 验 数 据 也 是 必要 的 。 如 果 发 现 了 无 效 的 数据 ,应 该 尽力 找到 错误 发 生 的 原因 和 更 
正 这 些 错 误 。 

2) 迁移 数据 

从 经 营 系统 中 迁移 数据 一 般 是 在 数据 复制 到 数据 仓库 之 前 把 数据 复制 到 一 个 中 间 
数据 库 中 。 如 果 数 据 需 要 净化 ,那么 把 数据 复制 到 中 间 数 据 库 中 是 必要 的 。 注 意 ,应 该 
在 OLTP 系统 中 活动 比较 低 的 时 候 复 制 数据 ,否则 会 降低 系统 的 性 能 。 另 外 ,如 果 该 数 
据 仓 库 由 来 自 多 个 相关 经 营 系统 中 的 数据 构成 ,应 该 确保 数据 迁移 发 生 在 系统 同步 的 时 
候 。 如 果 经 营 系统 不 同步 ,那么 数据 仓库 中 的 数据 可 能 会 产生 预想 不 到 的 错误 。 

3) 数据 净化 

数据 净化 就 是 使 数据 达到 一 致 性 。 在 多 个 经 营 系统 中 可 能 有 相同 的 数据 ,例如 一 个 
名 称 为 A Company 的 公司 可 能 被 写成 A Co, A,A Company 等 。 如 果 这 些 名 称 不 一 致 ， 
那么 在 查询 的 时 候 就 会 将 这 个 公司 作为 几 个 不 同 的 公司 处 理 。 如 果 在 数据 仓库 中 的 数 
据 生成 一 致 的 信息 ,那么 该 公司 的 名 称 必 须 完全 一 致 。 

4) 转换 数据 

在 数据 的 迁移 进程 中 ,经 常 需要 把 经 营 数据 转换 成 一 种 单独 的 格式 ,以 适应 数据 仓 
库 的 设计 。 例 如 把 所 有 的 字母 字符 转变 成 大 写字 母 。 


12.4.3 分 布 式 数据 仓库 Hive 


Hive 是 建立 在 Hadoop 上 的 数据 仓库 基础 构架 , 它 提供 了 一 系列 工具 ,可 以 用 来 进 
行 数据 的 提取 、 转 化 ,加载 (ETL) ,这 是 一 种 可 以 存储 、 查 询 和 分 析 Hadoop 中 的 大 规模 数 
据 的 机 制 。Hive 定义 了 简单 的 类 SQL 查询 语言 , 称 为 HQL, 它 允许 熟悉 SQL 的 用 户 查 
询 数 据 。 同 时 ,该 语言 也 允许 熟悉 MapReduce 的 开发 者 开发 自 定义 的 mapper 和 


第 12 章 数据 分 析 @ 


reducer 来 处 理 内 建 的 mapper 和 reducer 无 法 完成 的 复杂 分 析 工作 。 
Hive 的 体系 结构 如 图 12-7 所 示 , 具 体 如 下 。 
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FA 12-7 Hive 体系 结构 图 


1. 用 户 接口 


用 户 接口 主要 有 3 个 , 即 CLI,Client 和 WUI, 其 中 最 常用 的 是 CLI, CLI 在 启动 的 时 
候 会 同时 启动 一 个 Hive 副本 。Client 是 Hive 的 客户 端 ,用 户 连接 至 Hive Server。 在 启 
By Client 模式 的 时 候 需 要 指出 Hive Server 所 在 的 节点 ,并 且 在 该 节点 启动 Hive Server, 
WUI 是 通过 浏览 器 访问 Hive 的。 


2. 元 数据 存储 


Hive 将 元 数据 存储 在 数据 库 中 ,例如 MySQL. Derby. Hive 中 的 元 数据 包括 表 的 名 
字 、 表 的 列 和 分 区 及 其 属性 、 表 的 属性 (是 否 为 外 部 表 等 ). 表 数据 所 在 的 目录 等 。 


3. 解释 器 、 编 译 器 和 优化 器 


解释 器 、 编 译 器 和 优化 器 完成 HQL 查询 语句 从 词法 分 析 、 语 法 分 析 、 编 译 、 优 化 以 
及 查询 计划 的 生成 。 生 成 的 查询 计划 存储 在 HDFS 中 ,并 在 随后 由 MapReduce 调用 
执行 。 
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4. Hadoop 


Hive 的 数据 存储 在 HDFS 中 ,大 部 分 查询 由 MapReduce 完成 (包含 * 的 查询 ,例如 
SELECT * FROM tbl 不 会 生成 MapReduce 任务 ) 。 


12.4.4 数据 仓库 之 SQL 分 析 


大 数据 行业 已 掌握 了 收集 和 记录 大 量 数据 的 能 力 ,但 是 根据 这 些 数 据 进行 基本 预测 
和 制定 决策 仍然 是 一 项 挑战 ,需要 用 简单 、 易 用 的 数据 分 析 工 具 来 进行 数据 分 析 。 
Apache Hive 就 是 一 种 大 数据 分 析 工 具 , 通 过 使 用 SQL 方式 查找 和 写 人 大 规模 数据 到 分 
布 式 存储 系统 中 ,有 利于 数据 仓库 数据 的 查找 和 更 新 。 

下 面 以 执行 Hive 的 DDL 操作 语句 和 SQL 操作 语句 来 说 明 具 体 的 数据 仓库 操作 。 


1. DDL(Data Definition Language) 操 作 


数据 定义 语言 用 于 定义 具体 的 数据 表 , 包 括 创建 .修改 , 删 除 表 等 操作 。 
首先 创建 hive 表 : 


hive> CREATE TABLE pokes(foo INT, bar STRING); 


该 语句 创建 了 一 个 hive 表 pokes, 该 表 包 括 两 列 , 分 别 是 整 型 的 foo 列 和 string 类 型 
的 bar 列 。 


hive > CREATE TABLE invites(foo INT, bar STRING)PARTITIONED BY(ds STRING); 


该 语句 创建 一 个 hive X invites ,该 表 包 括 两 列 ,分 别 是 整 型 的 foo 列 和 string 类 型 
AY bar 列 , 以 及 一 个 分 区 列 , 即 类 型 为 string 的 ds 列 。 其 中 分 区 列 是 一 个 虚拟 的 列 ,并 不 
是 数据 本 身 。 








hive > SHOW TABLES; 





该 语句 列 出 所 有 的 表 。 





hive> SHOW TABLES'. * s'; 











该 语句 列 出 所 有 表 的 名 字 以 “s? 结 尾 的 表 。 模 式 匹配 遵循 Java 的 正则 表达 式 规则 。 
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hive > DESCRIBE invites; 








该 语句 显示 表 invites 中 的 所 有 列 信息 。 





hive> ALTER TABLE events RENAME TO 3koobecaf ; 











该 语句 修改 表 events 的 名 字 为 3koobecaf 。 
2. SQL 查询 操作 


Hive SQL 查询 操作 语句 用 于 分 析 具 体 的 数据 仓库 中 的 表 数 据 内 容 。 
1) SELECT 语句 和 过 滤 操 作 





hive > SELECT a. foo FROM invites a WHERE a. ds = '2008 - 08 - 15'; 





该 语句 表示 从 表 invites 中 输出 所 有 行 分 区 为 “2008-08-15” 的 列 信息 。 查 询 结果 信 
息 输 出 到 终端 console。 
2) INSERT 语句 操作 


hive> INSERT OVERWRITE DIRECTORY'/tmp/hdfs out'SELECT a. * FROM invites a WHERE a. ds = '2008 — 
06 —15*; 





该 语句 表示 从 表 invites 中 选择 分 区 为 “2008-08-15” 的 所 有 列 信 息 并 同时 写 和 人 到 
HDFS H3" /tmp/hdfs. out" f, 
3) GROUP BY 语句 操作 


hive > INSERT OVERWRITE TABLE events SELECT a. bar; count( * )FROM invites a WHERE a. foo» 0 


GROUP BY a. bar; 








4) JOIN 语句 操作 





hive > FROM pokes tl JOIN invites t2 ON(t1. bar = t2. bar) INSERT OVERNRITE TABLE events SELECT| 
tl.bar,tl.foo,t2,foo; 





12.4.5 阿里 云 MaxCompute 数据 仓库 案例 


下 面 以 构建 一 个 网 站 的 海量 日 志 为 例 来 说 明 如 何 建立 一 个 MaxCompute 数据 仓库 。 
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首先 将 这 些 日 志 收 集 起 来 ,这 里 使 用 Fluentd 服务 (类 似 的 服务 还 有 Kafka, 
LogHub,DataX 等 ) ,通过 Fluentd 可 以 轻松 地 创建 任务 按时 读 取 各 台 服 务 器 上 的 日 志文 
件 。 用 户 只 需要 配置 服务 器 上 日 志 的 路 径 ,Fluentd 就 能 把 日 志 存 储 到 MaxCompute 的 
Table Store 中 。 

创建 的 Table Store 表 需 要 按照 Fluentd 定义 的 字段 写 ,默认 的 4 个 字段 如 下 : 

(1) content 表示 日 志 内 容 。 

(2) ds 表示 天 ,由 Fluentd 自动 生成 。 

(3) hh 表示 小 时 ,由 Fluentd 自动 生成 。 

(4) mm 表示 分 钟 ,由 Fluentd 自动 生成 。 

可 以 看 到 真正 能 控制 的 字段 只 有 content, 其 他 字段 都 由 Fluentd 自动 生成 。 

MaxCompute 本 身 提供 了 Fluentd 的 所 有 功能 接口 ,不 过 调用 接口 虽然 简单 ,配置 环 
境 却 很 复杂 。 如 果 业 务 需 要 对 数据 做 深入 的 分 析 和 挖掘 ,用 户 就 不 得 不 自己 配置 环境 。 

首先 需要 创建 Table, 这 和 MySQL 基本 一 样 。 代 码 如 下 : 


CREATE TABLE IF NOT EXISTS sale_detail( 

shop_name string, 

customer_id string, 

total price double) 

PARTITION BY(sale date string, region string); ”// 设 置 分 区 








分 区 一 定 要 考虑 到 ,因为 MaxCompute 的 查询 最 多 只 能 显示 5000 条 数据 ,limit 不 支 
持 offect, 所 以 数据 量 一 大 就 无 法 通过 开发 套件 (Data IDE) 做 在 线 查 询 。 导 出 数据 到 本 
地 也 需要 使 用 分 区 字段 ,分 区 越 大 一 次 请 求 能 导出 的 数据 就 越 多 ,因此 ,合理 地 设置 分 区 
非常 重要 。 

然后 通过 MaxCompute DataHub Service(DHS, 通 常 称 为 DataHub 服务 ) 去 上 传 
数据 。 

DataHub 服务 提供 了 SDK ,不 过 是 Java 的 ,通过 SDK 可 以 实现 实时 上 传 功能 。 因 
为 DataHub 服务 接口 不 用 创建 MaxCompute 任务 (Task) ,所 以 速度 非常 快 ,可 以 向 较 高 
的 QPS(Query Per Second) 和 和 较 大 的 吞吐 量 的 服务 提供 数据 存储 支持 。DataHub 上 的 
数据 只 能 被 存储 7 天 ,之 后 会 被 删除 ,在 被 删除 之 前 会 保存 到 MaxCompute WRP. 
然 也 可 通过 异步 的 方式 调用 接口 同步 DataHub 中 的 数据 到 MaxCompute 的 表 中 。 

如 果 服 务 本 身 就 使 用 Java 可 以 直接 使 用 SDK , 非 Java 服务 则 需要 权衡 成 本 。 

在 实际 项 目 中 使 用 MaxCompute 有 以 下 4 种 通用 的 方案 : 

CD 使 用 Fluentd 上 传 数据 。 其 适用 于 简单 的 数据 存储 。 
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(2) 使 用 PyODPS 上 传 数据 。 其 适用 于 较为 复杂 的 数据 存储 。 

(3) 使 用 Fluentd 和 PyODPS 上 传 数据 。 其 适用 于 需要 对 数据 做 大 量 分 析 的 场景 。 
(4) 使 用 DataHub 上 传 数据 。 其 适用 于 需要 实时 同步 数据 的 业务 场景 。 

下 面 以 PyODPS 为 例 介 绍 如 何 将 数据 传 到 MaxCompute Table 中 。 


1. 封装 MaxCompute 的 连接 


这 样 方便 用 户 随 时 随地 使 用 MaxCompute 的 强大 功能 ,只 需要 在 代码 中 调用 
“odps = OdpsConnect(). getIntense() EJF . 


it /usr/bin/python3 

. author = ‘layne. fyc@gmail.com' 

tt coding = utf 一 8 

from odps import ODPS 

+ 测试 地 址 : endpoint = 'http://service- corp. odps. aliyun- inc. com/api' 
# 正式 地 址 : endpoint = 'http://service. odps. aliyun - inc. com/api' 
debug = True 

onlineUrl = 'http://service.odps.aliyun- inc. com/api' 

localUrl = 'http://service- corp. odps. aliyun- inc. com/api' 
accessId = ' 填 自己 的 ' 

accessKey = ' 填 自己 的 ' 


class OdpsConnect: 
model = object 
def _ init (self): 
self.model = ODPS(accessId, accessKey, project = 'Jii H 44 ', endpoint = (localUrl ifl 
debug else onlineUrl)) 
def getIntense(self): 
return self.model 
def exe(self, sql): 


return self. model. execute_sql(sql) 











2. 创建 MaxCompute Table 


创建 MaxCompute Table. 用 来 存储 海量 日 志 。 





from OdpsConnect import OdpsConnect 
from odps. models import Schema, Column, Partition 
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odps = OdpsConnect().getIntense() 
odps.delete table('test amap analys', if_exists = True) # R 7ERt ME 








井 各 种 项 

columns = [ 
Column(name = 'uid', type = 'bigint', comment = 'user id'), 
Column(name = 'ctime', type = 'bigint', comment = 'time stamp'), 
Column(name = 'url', type = 'string', comment = 'url'), 
Column(name = 'param', type= 'string', comment = 'param'), 
Column(name = 'ip', type = 'string', comment = 'ip'), 
Column(name = 'city', type = 'string', comment = 'city') 

] 

HIKE 

partitions = [ 
Partition(name = 'dt', type= 'bigint', comment = 'the partition day') 

] 

Schema = Schema( columns = columns, partitions = partitions) 


table = odps.create_table( 'test_amap_analys', schema, if_not_exists = True) 











这 里 有 几 点 需要 特别 注意 : 

(1) MaxCompute Table 只 支持 添加 数据 ,不 支持 删除 与 修改 数据 。 如 果 要 删除 脏 
数据 ,只 能 先 备 份 整 张 表 到 B, 然 后 删除 这 张 表 A, 再 新 建 表 A, 最 后 将 表 BB 的 备份 信息 处 
理 后 重新 导入 表 A, 

(2) 分 区 信息 可 以 创建 很 多 个 ,但 是 在 导入 、 导 出 、 进 行 某 些 特殊 查询 时 要 全 部 带 上 。 
例如 分 区 字段 为 “a,b,c,d”, 最 后 导出 数据 时 必须 指定 a,b,c,d” 的 内 容 , 只 指定 “a,b” 或 
者 "a. ce” 都 是 不 行 的 。 所 以 用 户 设置 分 区 字段 时 也 要 慎重 ,要 尽量 设置 少 一 点 ,这 里 通过 
数据 量 来 设置 ,建议 每 个 分 区 存储 20 000 条 左右 的 数据 。 





3. 通过 Tunnel 上 传 数据 到 MaxCompute 


描述 : 通过 程序 在 服务 器 上 存放 了 大 量 日 志文 件 ,文件 名 为 "log/20160605. log” , fij 
天 通过 日 期 定时 生成 。 每 条 日 志 的 格式 如 下 : 





name:amap|ip:19.19.19.19|uuid:110112|param: sdfsdf = 123&fsdf = 123 | url :get — user — infol 
| tine:123123123 





使 用 |” 和“:” 号 分 隔 , 下 面 需要 将 所 有 的 日 志 数 据 存储 到 上 一 步 创 建 的 test amap. _ 
analys 表 中 。 
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it /usr/bin/python3 

. author _ = 'layne.xfl(Qalibaba- inc. com' 

dt coding = utf - 8 

import datetime 

import urllib.parse 

# ACHE AY IP BE 

import db. IP 

from OdpsConnect import OdpsConnect 

from odps.models import Schema, Column, Partition 


from odps. tunnel import TableTunnel 


odps = OdpsConnect(). getIntense( ) 
t = odps.get table('test amap analys') 
records - [] 
tunnel - TableTunnel(odps) 
提 日 志文 件 名 格式 为 log/20160605. log 
# 这 里 默认 上 传 前 5 天 的 数据 
8z = 5 
while sz >0 : 
#get Yestoday 
last time = (datetime. datetime. now() + datetime. timedelta(days = - sz)). strftime| 
('%Y%m%d') 
井 分 区 不 存在 的 时 候 需 要 创建 , 否则 会 报错 
t.create partition('dt- '+ last time, if not exists = True) 
# 创 建 连接 会 话 
upload session = tunnel.create upload session(t.name, partition spec= 'dt = '+ 
last time) 
井 通过 日 期 规则 构造 的 文件 名 
file = 'log/*s.log' % last time 
with upload_session. open_record_writer(0) as writer: 
for line in open( file, 'r', encoding = 'utf8'): 
arr = {} 
H x ig ad I |” 8:75 RR 
dt fJ hm: “name: amap| ip: 19. 19. 19. 19 | uuid: 110112 | param: sdfsdf = 123&f sdf = 
123|url:get- user — info|time:123123123" 


for tm in raw. split('|"): 





pstm = tm.split(" 
if(len(pstm) == 2) : 
arr[pstm[0]] = pstm[1] 
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# Nginx 中 的 ip 参数 可 能 被 伪造 ,需要 做 过 滤 
ip = arr.get('ip','') 
if(len(ip)>15): 
iparr = ip.split(',') 
ip = iparr[- 1]. strip(" ") 
city = " 
if iph "i; 
井 通过 ip 获取 城市 信息 
city = db.IP.find(ip) 
writer. write(t.new_record( 
arr.get('uid',0), 
arr. get('time',0), 
arr.get('url',''), 
urllib. parse. unquote(arr. get ('param', '')). replace("\\","*"). 
replace('"'," « "), jl URL_DECODE 
ip, 
city, 
last time 
0) 
upload session.commit([0]) 


sz = sz - 1; 








这 里 需要 注意 以 下 两 点 : 

(D. 使 用 MaxCompute 要 以 数据 为 重 , 分 区 先行 。 存 储 数 据 `. 下 载 数 据 都 要 先 设置 
好 分 区 再 操作 数据 。 

(2) Nginx 中 获取 的 IP 参数 可 能 被 伪造 ,不 能 直接 使 用 。 


12.5 “习题 


. 简 述 数据 分 析 过 程 。 

. 简 述 数据 仓库 定义 ,数据 仓库 架构 以 及 实现 步骤 。 

. 简 述 Hive 的 基本 功能 。 

.使 用 阿里 云 数据 仓库 MaxCompute 构建 一 个 日 志 分 析 数 据 仓 库 , 分 析 日 志 数 据 。 
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数据 挖掘 与 机 器 学 习 技术 


13.1 相关 理论 基础 知识 


13.1.1. 数据 挖掘 与 机 器 学 习 简介 


数据 挖掘 包括 信息 收集 数据 集成 ,数据 规约 .数据 清理 .数据 变换 .数据 挖掘 过 程 、 


模式 六 


估 、 知 识 表示 8 个 步 又。 数据 挖掘 过 程 是 一 个 反复 循环 的 过 程 ,每 一 个 步骤 如 果 


没有 达到 预期 目标 ,都 需要 回 到 前 面 的 步骤 重新 调整 并 执行 。 不 是 每 个 数据 挖掘 工作 都 
需要 包括 这 里 列 出 的 每 一 步 , 例 如 在 某 个 工作 中 不 存在 多 个 数据 源 ,那么 数据 集成 的 步 


又 就 可 


以 省 略 。 数 据 规 约 ` 数 据 清理 .数据 变换 合 称 为 数据 预 处 理 。 在 数据 挖掘 中 ,至 少 


60% 的 费用 可 能 花 在 信息 收集 阶段 ,而 至 少 60% 以 上 的 精力 和 时 间 花 在 数据 预 处 理 上 。 


L] 
iW. Pi 


射 到 输 


L 器 学 习 的 目的 则 是 从 数据 中 自动 习 得 模型 ,并 使 用 习 得 的 模型 对 未 知 数据 进行 预 
器 学 习 的 任务 是 从 数据 中 学 习 决 策 函 数 f:x 习 y, 这 个 决策 函数 将 输入 变量 x 映 
出 空间 的 输出 变量 y 上 , 即 根据 输入 产生 预测 。 








机 


器 学 习 包 括 监督 学 习 , 非 监督 学 习 . 半 监督 学 习 以 及 强化 学 习 等 ,其 中 最 常见 的 两 


类 任务 是 监督 学 习 与 非 监 督学 习 。 

监督 学 习 的 任务 是 利用 训练 数据 学 习 决 策 函 数 了 ,并 将 其 应 用 于 测试 数据 上 进行 推 
理 和 预测 。 一 般 而 言 ,训练 数据 由 标注 好 的 输入 和 输出 数据 对 (z+,y) EX XY 构成 ,训练 
数据 集 通 常 表示 为 : 


T= {C219 y1) s C2232) "° (m, y) 
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在 监督 学 习 的 过 程 中 ,学 习 系 统 利用 事先 标注 好 的 特定 训练 数据 集 , 通 过 学 习 得 到 
某 个 模型 ,这 个 模型 可 以 表示 为 条 件 概率 分 布 或 者 决策 函数 ,条 件 概率 分 布 或 者 决策 函 
数 描述 输入 和 输出 之 间 随 机 变量 的 映射 关系 。 监 督学 习 的 最 终 目 标 是 使 从 训练 数据 中 
习 得 的 模型 能 够 在 测试 数据 上 获得 准确 的 预测 能 力 。 形 式 化 地 讲 , 对 于 给 定 的 输入 xz, 决 
策 函 数 了 产生 的 预测 值 /(x) 与 真实 值 可 能 一 致 ,也 可 能 不 一 致 ,一 般 使 用 损失 函数 
(Loss Function) 来 度量 预测 的 错误 程度 。 损 失 函 数 是 预测 值 /(x) 与 真实 值 y 的 非 负 实 
值 函 数 , 记 作 Cy,FCz))。 


常见 的 损失 函数 有 以 下 4 个 。 
(1) 0-1 损失 函数 
1, y= f(x) 
Loy f G0 -| 
0, y= fG) 
(2) 平方 损失 函数 


Loy fO) = Go fG»* 
(3) 绝对 损失 函数 
Loy. y yy =| y— FG): | 
CD 对 数 损失 函数 
Lly,f(7x)) =— logPG | y) 
很 明显 ,损失 函数 值 越 小 , 习 得 的 模型 越 好 。 当 给 定 训练 数据 集合 时 ,模型 关于 训练 
数据 的 平均 损失 成 为 经 验 风 险 , 一 般 记 为 : 


N 
Reef)" = L) co fled) 
Ney 


经 验 风 险 最 小 化 策略 认为 : 经 验 风险 最 小 的 模型 就 是 最 优 模型 。 
13.1.2 关联 分 析 


关联 分 析 是 一 种 简单 .实用 的 分 析 技 术 , 就 是 发 现存 在 于 大 量 数据 集中 的 关联 性 或 
相关 性 ,从 而 描述 一 个 事物 中 某 些 属性 同时 出 现 的 规律 和 模式 。 

关联 分 析 是 从 大 量 数据 中 发 现 项 集 之 间 有 趣 的 关联 和 相关 联系 。 关 联 分 析 的 一 个 
典型 例子 是 购物 篮 分 析 。 该 过 程 通 过 发 现 顾客 放 和 其 购物 篮 中 的 不 同 商品 之 间 的 联系 
分 析 顾 客 的 购买 习惯 ,通过 分 析 了 解 哪 些 商 品 频繁 地 被 顾客 同时 购买 ,这 种 关联 的 发 现 
可 以 帮助 零售 商 制定 营销 策略 。 其 他 的 应 用 还 包括 价目 表 设 计 、 商 品 促销 、 商 品 的 摆 放 
和 基于 购买 模式 的 顾客 划分 。 
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1. 基本 概念 


(1) 项 集 。 在 关联 分 析 中 ,包含 0 个 或 者 多 个 的 项 的 集合 称 为 项 集 。 如 果 一 个 项 集 
包含 & 个 项 ,那么 就 称 为 上 项 集 。 例 如 ,{ 牛 奶 ,咖啡 } 称 为 2 项 集 。 

(2) 支持 度 。 支 持 度 用 来 确定 给 定数 据 集 的 频繁 程度 , 即 给 定数 据 集 在 所 有 的 数据 
集中 出 现 的 频率 ,例如 sX 一 > Y) = P(X.Y)/N. 

(3) 置信 和 度 。 置 信和 度 则 是 用 来 确定 Y 在 包含 X 的 事务 中 出 现 的 频繁 程度 , 即 c(X 一 > 
Y)=P(X, Y)/P(X). 


2. 关联 分 析 算 法 的 基本 原理 


支持 度 是 一 个 重要 的 度量 ,如 果 支 持 度 很 低 , 代 表 这 个 规则 只 是 偶然 出 现 ,基本 没有 
意义 。 因 此 ,支持 度 通常 用 来 删除 那些 无 意义 的 规则 。 置 信 度 则 是 通过 规则 进行 推理 ， 
具有 可 靠 性 。 用 cCX 一 >Y) 来 说 ,只 有 置信 度 越 高 ,Y 出 现在 包含 X 的 事务 中 的 概率 才 
越 大 ,和 否则 这 个 规则 也 没有 意义 。 

在 做 关联 规则 发 现 的 时 候 通常 会 设 定 支持 度 和 置信 度 阔 值 Cminsup 和 minconf) ,而 
关联 规则 发 现 则 是 发 现 那些 支持 度 大 于 等 于 minsup 并 且 置 信 度 大 于 minconf 的 所 有 规 
则 。 所 以 ,提高 关联 分 析 算 法 效率 的 最 简单 的 办 法 是 提高 支持 度 和 置信 度 的 阔 值 。 


3. 关联 分 析 基本 算法 


。 找到 满足 最 小 支持 度 阔 值 的 所 有 项 集 ,通常 称 为 频繁 项 集 ( 例 如 频繁 2 项 集 .频繁 
3 mE), 

。 从 频繁 项 集中 找到 满足 最 小 置信 度 的 所 有 规则 。 

。 评估 关联 分 析 算法 。 

1) Apriori 算法 

Apriori 算法 是 挖掘 产生 布尔 关联 规则 所 需 频 繁 项 集 的 基本 算法 ,也 是 最 著名 的 关 
联 规则 挖掘 算法 之 一 。Apriori 算法 就 是 根据 有 关 频 繁 项 集 特性 的 先 验 知识 而 命名 的 。 
它 使 用 一 种 被 称 为 逐 层 搜索 的 迭代 方法 .k 项 集 用 于 探索 (k 十 1) 项 集 。 首 先 找 出 频繁 1 
项 集 的 集合 , 记 做 Li ,Li 用 于 找 出 频繁 2 项 集 的 集合 Li. BERI T dE Ls ,如 此 下 去 ,直到 
不 能 找到 频繁 上 项 集 。 找 每 个 L; 需 要 扫描 一 次 数据 库 。 

为 提高 按 层次 搜索 并 产生 相应 频繁 项 集 的 处 理 效 率 ,Apriori 算法 利用 了 一 个 重要 
性 质 , 并 应 用 Apriori 性 质 来 帮助 有 效 地 缩小 频繁 项 集 的 搜索 空间 。 

Apriori 性 质 : 一 个 频繁 项 集 的 任 一 子 集 也 应 该 是 频繁 项 集 。 

证 明 根据 定义 , 若 一 个 项 集 [不 满足 最 小 支持 度 阔 值 min_sup, 则 了 I 不 是 频繁 的 , 即 
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P(D< min_sup。 若 增加 一 个 项 A 到 项 集 I 中 , 则 结果 新 项 集 (IU A) 也 不 是 频繁 的 ,在 整 
个 事务 数据 库 中 所 出 现 的 次 数 也 不 可 能 多 于 原 项 集 工 出 现 的 次 数 ,因此 PCGIUA)< min 
sup, 即 (IUA) 也 不 是 频繁 的 。 这 样 就 可 以 根据 逆反 公理 很 容易 地 确定 Apriori TEC 
成 立 。 

Apriori 算法 的 优化 有 以 下 几 种 方法 。 

CD 基于 划分 的 方法 。 该 算法 先 把 数据 库 从 逻辑 上 分 成 几 个 互 不 相交 的 块 ,每 次 单 
独 考虑 一 个 分 块 并 对 它 生成 所 有 的 频繁 项 集 , 然 后 把 产生 的 频繁 项 集合 并 ,用 来 生成 所 
有 可 能 的 频繁 项 集 ,最 后 计算 这 些 项 集 的 支持 度 。 这 里 分 块 的 大 小 选择 要 使 每 个 分 块 可 
以 被 放 入 主 存 , 每 个 阶段 只 需要 扫描 一 次 。 而 算法 的 正确 性 是 由 每 一 个 可 能 的 频繁 项 集 
至 少 在 某 一 个 分 块 中 是 频繁 项 集 来 保证 的 。 

上 面 所 讨论 的 算法 是 可 以 高 度 并 行 的 ,可 以 把 每 一 分 块 分 别 分 配给 某 一 个 处 理 器 生 
成 频繁 项 集 。 在 产生 频繁 项 集 的 每 一 个 循环 结束 后 ,处理 器 之 间 进 行 通信 来 产生 全 局 的 
候选 是 1 项 集 。 通 常 这 里 的 通信 过 程 是 算法 执行 时 间 的 主要 瓶颈 。 另 一 方面 ,每 个 独立 
的 处 理 器 生成 频繁 项 集 的 时 间 也 是 一 个 瓶颈 。 其 他 的 方法 还 有 在 多 处 理 器 之 间 共 享 一 
个 杂凑 树 来 产生 频繁 项 集 , 更 多 关于 生成 频繁 项 集 的 并 行 化 方法 可 以 在 其 中 找到 。 

(2) 基于 Hash 的 方法 。Park 等 人 提出 了 一 个 高 效 地 产生 频繁 项 集 的 、 基 于 杂凑 
(Hash) 的 算法 。 通 过 实验 可 以 发 现 ,寻找 频繁 项 集 的 主要 计算 是 在 生成 频繁 DUE L, 
上 ,Park 等 人 就 是 利用 这 个 性 质 引 入 杂凑 技术 来 改进 产生 频繁 2 项 集 的 方法 。 

(3) 基于 采样 的 方法 。 基 于 前 一 遍 扫描 得 到 的 信息 ,对 它 详 细 地 做 组 合 分 析 , 可 以 得 
到 一 个 改进 的 算法 。 其 基本 思想 是 : 先 使 用 从 数据 库 中 抽取 出 来 的 采样 得 到 一 些 在 整个 
数据 库 中 可 能 成 立 的 规则 ,然后 对 数据 库 的 剩余 部 分 验证 这 个 结果 。 这 个 算法 相当 简 
单 , 并 且 显 著 地 减少 了 1⁄O 代价 ,但 是 一 个 很 大 的 缺点 就 是 产生 的 结果 不 精确 , 即 存在 所 
谓 的 数据 扭曲 (Dataskew)。 分 布 在 同一 页 面 上 的 数据 经 常 是 高 度 相关 的 ,不 能 表示 整个 
数据 库 中 模式 的 分 布 ,由 此 导致 的 是 采样 5% 的 交易 数据 所 花费 的 代价 与 扫描 一 遍 整 个 
数据 库 相 近 。 

(4) 减少 交易 个 数 。 减 少 用 于 未 来 扫描 的 事务 集 的 大 小 ,基本 原理 就 是 当 一 个 事务 
不 包含 长 度 为 k 的 大 项 集 时 ,必然 不 包含 长 度 为 k 十 1 的 大 项 集 。 从 而 可 以 将 这 些 事务 
删除 ,在 下 一 遍 扫描 中 就 可 以 减少 要 进行 扫描 的 事务 集 的 个 数 。 这 就 是 AprioriTid 的 基 
本 思想 。 

2) FP-growth 算法 

由 于 Apriori 算法 的 固有 缺陷 ,即使 进行 了 优化 ,其 效率 仍然 不 能 令 人 满意 。2000 
年 , Han Jiawei 等 人 提出 了 基于 频繁 模式 树 (Frequent Pattern Tree. FP-tree) 发 现 频繁 模 
式 的 算法 FP-growth。 在 FP-growth 算法 中 ,通过 两 次 扫描 事务 数据 库 把 每 个 事务 所 包 
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含 的 频繁 项 目 按 其 支持 度 降序 压缩 存储 到 FP-tree 中 。 在 以 后 发 现 频繁 模式 的 过 程 中 ， 
不 需要 再 扫描 事务 数据 库 , 而 仅 在 FP-tree 中 进行 查找 即 可 ,并 通过 递归 调用 FP-growth 
的 方法 来 直接 产生 频繁 模式 ,因此 在 整个 发 现 过 程 中 也 不 需要 产生 候选 模式 。 该 算法 克 
服 了 Apriori 算 法 中 存在 的 问题 ,在 执行 效率 上 也 明显 优 于 Apriori 算法 。 


13.1.3 分 类 与 回归 


1. 分 类 问题 


分 类 是 数据 挖掘 的 一 种 非常 重要 的 方法 。 分 类 的 概念 是 在 已 有 数据 的 基础 上 学 会 
一 个 分 类 函数 或 构造 出 一 个 分 类 模型 ( 即 通常 所 说 的 分 类 器 )。 该 函数 或 模型 能 够 把 数 
据 库 中 的 每 一 条 数据 样本 映射 到 给 定 类 别 中 的 某 一 个 ,从 而 可 以 应 用 于 数据 预测 。 分 类 
器 是 数据 挖掘 中 对 样本 进行 分 类 的 方法 的 统称 ,包含 逻辑 回归 、 决 策 树 、 朴 素 贝 叶 斯 \ 神 
经 网 络 等 算法 。 

分 类 的 定义 : 给 定 一 个 数据 集 Do {t,t2，,…,t,} 和 一 组 类 C= (C1 Coote Ca} ,分 类 
问题 就 是 去 确定 一 个 映射 /: D—> C, 每 个 元 组 t; 被 分 配 到 一 个 类 中 。 类 Cj; 包含 映射 到 
该 类 中 的 所 有 数据 元 组 , 即 C 一 人 | f(4)=Ci,1<=i<=n, 且 4:€ED)。 

分 类 的 过 程 描述 如 下 。 

CD 选 定 样本 (包含 正 样本 和 负 样 本 ) ,将 所 有 样本 分 成 训练 样本 和 测试 样本 两 部 分 。 

(2) 在 训练 样本 上 执行 分 类 器 算法 ,生成 分 类 模型 。 

(3) 在 测试 样本 上 执行 分 类 模型 ,生成 预测 结果 。 

(4) 根据 预测 结果 计算 必要 的 评估 指标 ,评估 分 类 模型 的 性 能 。 

下 面 介绍 几 种 基本 的 分 类 器 。 

1) 逻辑 回归 分 类 器 

二 项 逻辑 回归 模型 是 一 种 分 类 模型 ,可 由 条 件 概 率 分 布 PCy|X) 来 表示 ,其 中 ,随机 
变量 X 的 取 值 范围 为 实数 ,随机 变量 y 的 取 值 为 一 1 或 者 1。 一 般 采 用 以 下 公式 来 表示 : 


exp(W * X +b) 
1+exp(W x X+ b) 


1 
1+exp(W * X + b) 


其 中 ,X 是 输入 变量 ,> 是 输出 ,代表 不 同 的 类 标号 ,W 是 特征 权重 向 量 。 

对 于 CTR 预 估 来 说 ,可 以 采用 以 上 的 逻辑 回归 方法 ,在 计算 广告 的 应 用 环境 下 ,y 一 
1 代表 用 户 会 点 击 广告 ,y 一 一 1 代表 用 户 不 会 点 击 广告 ,变量 X 代表 < 查询 ,广告 > 数据 
对 ,由 数据 对 响应 的 特征 向 量 构成 .其 特征 可 以 是 查询 独 有 的 、 广 告 独 有 的 或 者 查询 和 广告 
两 者 匹配 的 特征 ,W 是 这 些 特 征 的 权重 向 量 ,表明 对 应 特征 的 重要 性 ,需要 使 用 的 训练 数据 














P(y=1| X) 


P(y =—1| X) 
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经 过 训练 获得 ,特征 参数 规模 可 以 达到 10 亿 量 级 。 当 特征 权重 确定 后 ,输入 < 查询 ,广告 > 
数据 对 ,计算 出 的 PCy=1|1X) 就 代表 预 估 出 的 CTR。 很 明显 ,这 是 一 个 sigmod 函数 ,其 
值 落 在 0 到 1 之 间 。 
所 以 ,问题 即 转换 为 如 何 求解 特征 权重 。 可 以 使 用 < 查询 ,广告 > 的 历史 点 击 数据 作 
为 训练 集合 ,利用 极 大 似 然 法 来 估计 模型 参数 : 
Tro: | XW) 


Jp CX) .W)2 M 个 训练 数据 中 的 第 j 个 训练 实例 ,分 为 正 样本 和 负 样 本 ,通过 对 以 上 公 
式 取 负 log ,并 为 避免 过 拟 合 而 加 入 忆 :正则 化 项 , 则 求解 特征 权重 问题 转换 为 用 以 下 公式 
求 最 小 值 : 


M 
Min; — >)logCPy | X;,W) +a | WI 
j=1 


于 是 ,问题 就 变 成 了 以 对 数 似 然 函数 为 目标 的 无 约束 最 优化 问题 ,一 般 采 用 梯度 下 
降 算法 、 牛 顿 拟 合法 或 拟 牛 顿 法 来 解决 这 种 参数 优化 的 问题 。 不 论 采 取 上 述 哪 种 参数 优 
化 方法 都 遵循 相似 的 基本 流程 : 首先 赋予 初始 的 权重 向 量 Wo 以 0 附近 的 随机 值 ,然后 反 
复 迭 代 , 在 每 次 迭代 过 程 中 都 根据 当前 权重 向 量 W 计算 目标 函数 的 最 快 下 降 方向 ,并 更 
新 权重 向 量 ,直到 目标 函数 稳定 到 极 值 点 ,将 此 时 的 权重 向 量 W 作为 目标 函数 的 最 
优 解 。 

不 同 优化 算法 的 主要 区 别 在 于 目标 函数 下 降 方向 Di 的 计算 方式 不 同 ,Di 往 往 是 通过 
对 目标 函数 权重 向 量 W 的 当前 取 值 求 导数 或 者 二 阶 导数 来 确定 的 。 

2) 决策 树 分 类 器 

决策 树 分 类 器 提供 一 个 属性 集合 ,决策 树 通过 在 属性 集 的 基础 上 做 出 一 系列 的 决策 
将 数据 分 类 。 这 个 过 程 类 似 于 通过 一 个 植物 的 特征 来 辨认 植物 。 可 以 应 用 这 样 的 分 类 
器 来 判定 某 人 的 信用 程度 ,例如 ,一 个 决策 树 可 能 会 断定 “一 个 有 家 、 拥 有 一 辆 价值 在 
1.5 万 一 2. 3 万 美元 的 轿车 ` 有 两 个 孩子 的 人 ”拥有 良好 的 信用 。 决 策 树 生成 器 从 一 个 
“训练 集 ” 中 生成 决策 树 。SGI 公司 的 数据 挖掘 工具 MineSet 所 提供 的 可 视 化 工具 使 用 
树 图 来 显示 决策 树 分 类 器 的 结构 ,在 该 图 中 ,每 一 个 决策 用 树 的 一 个 节点 来 表示 。 图 形 
化 的 表示 方法 可 以 帮助 用 户 理解 分 类 算法 ,提供 对 数据 的 有 价值 的 观察 视角 。 生 成 的 分 
类 器 可 用 于 对 数据 的 分 类 。 

3) 选择 树 分 类 器 

选择 树 分 类 器 使 用 与 决策 树 分 类 器 相似 的 技术 对 数据 进行 分 类 。 与 决策 树 不 同 的 
是 ,选择 树 中 包含 特殊 的 选择 节点 ,选择 节点 有 多 个 分 支 。 例 如 ,在 一 棵 用 于 区 分 汽车 产 
地 的 选择 树 中 的 一 个 选择 节点 可 以 选择 马力 ,汽缸 数目 或 汽车 重量 等 作为 信息 属性 。 在 
决策 树 中 ,一 个 节点 一 次 最 多 可 以 选取 一 个 属性 作为 考虑 对 象 。 在 选择 树 中 进行 分 类 时 
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可 以 综合 考虑 多 种 情况 。 选 择 树 通常 比 决策 树 更 准确 ,但 是 也 大 得 多 。 选 择 树 生成 器 使 
用 与 决策 树 生成 器 生成 决策 树 同 样 的 算法 ,从 训练 集中 生成 选择 树 。MineSet 的 可 视 化 
工具 使 用 树 图 来 显示 选择 树 。 树 图 可 以 帮助 用 户 理解 分 类 器 ,发 现 哪 个 属性 在 决定 标签 
属性 值 时 更 重要 .同样 可 以 用 于 对 数据 进行 分 类 。 

4) 证 据 分 类 器 

证 据 分 类 器 通过 检查 在 给 定 一 个 属性 的 基础 上 某 个 特定 的 结果 发 生 的 可 能 性 来 对 
数据 进行 分 类 。 例 如 , 它 可 能 做 出 判断 ,一 个 拥有 一 辆 价值 在 1. 5 一 2. 3 万 美元 的 轿车 的 
人 有 70% 的 可 能 是 信用 良好 的 ,有 30% 的 可 能 是 信用 很 差 。 分 类 器 在 一 个 简单 的 概率 
模型 的 基础 上 使 用 最 大 的 概率 值 来 对 数据 进行 分 类 预测 。 与 决策 树 分 类 器 类 似 , 生 成 器 
从 训练 集中 生成 证 据 分 类 器 。MineSet 的 可 视 化 工具 使 用 证 据 图 来 显示 分 类 器 ,证 据 图 
由 一 系列 描述 不 同 的 概率 值 的 饼 图 组 成 。 证 据 图 可 以 帮助 用 户 理解 分 类 算法 ,提供 对 数 
据 的 深入 洞察 ,帮助 用 户 回 答 像 * 如 果 … 怎 么 样 ”一 类 的 问题 ,同样 可 以 用 于 对 数据 进行 
分 类 。 





2. 回归 问题 


回归 分 析 (regression analysis) 是 确定 两 种 或 两 种 以 上 变数 间 相 互 依赖 的 定量 关系 
的 一 种 统计 分 析 方 法 ,其 运用 十 分 广泛 。 回 归 分 析 按 照 涉及 的 自 变 量 的 多 少 可 以 分 为 一 
元 回归 分 析 和 多 元 回归 分 析 ; 按照 自 变量 和 因 变 量 之 间 的 关系 类 型 可 以 分 为 线性 回归 分 
析 和 非 线 性 回归 分 析 。 如 果 在 回归 分 析 中 只 包括 一 个 自 变 量 和 一 个 因 变 量 , 且 两 者 的 关 
系 可 用 一 条 直线 近似 表示 ,这 种 回归 分 析 称 为 一 元 线性 回归 分 析 。 如 果 回 归 分 析 中 包括 
两 个 或 两 个 以 上 的 自 变量 , 且 因 变量 和 自 变量 之 间 是 线性 关系 , 则 称 为 多 元 线性 回归 分 
析 。 通 过 这 种 方法 可 以 确定 许多 领域 中 各 个 因素 (数据) 之 间 的 关系 ,从 而 可 以 通过 其 预 
测 和 分 析 数 据 。 例 如 司机 的 鲁莽 驾驶 与 道路 交通 事故 数量 之 间 的 关系 ,最 好 的 研究 方法 
就 是 回归 。 

回归 的 原理 是 : 建立 因 变 数 Y( 或 称 依 变数 .反应 变数 ) 与 自 变数 X( 或 称 独 变数 、 解 
释 变数 ) 之 间 关 系 的 模型 。 简 单线 性 回归 使 用 一 个 自 变 量 X, 复 回归 使 用 超过 一 个 自 变 
OX Xon Xi). 

回归 模型 主要 包括 以 下 变量 : 

CD. 未 知 参 数 8, 可 以 是 标量 或 向 量 。 

(2) 自 变 量 X。 

(3) 因 变 量 Y。 

回归 模型 将 Y 和 一 个 关于 X 和 8B 的 函数 关联 起 来 。 

Y= XA 
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13.1.4 聚 类 分 析 


聚 类 分 析 (cluster analysis) 是 一 组 将 研究 对 象 分 为 相对 同 质 的 群 组 (clusters) 的 统计 
分 析 技 术 。 聚 类 分 析 区 别 于 分 类 分 析 (classification analysis) ,后 者 是 有 监督 的 学 习 , 而 
聚 类 分 析 是 无 监督 的 学 习 。 


1. 聚 类 方法 的 分 类 


CD 层次 聚 类 。 包 括 合并 法 、 分 解法 、 树 状 图 。 

(2) 非 层次 聚 类 。 包 括 划分 聚 类 HRA, 

K-means( 非 层次 聚 类 ) 的 执行 过 程 如 下 。 

CD 初始 化 。 选 择 ( 或 人 为 指定 ) 某 些 记录 作为 凝聚 点 。 

(2) 循环 。 按 就 近 原 则 将 其 余 记 录 向 凝聚 点 凝集 ,计算 出 各 个 初始 分 类 的 中 心 位 
置 (均值 ) ,用 计算 出 的 中 心 位 置 重 新 进行 聚 类 ,如 此 反复 循环 ,直到 凝聚 点 位 置 收敛 
为 止 。 

其 方法 特点 如 下 。 

(1) 通常 要 求 已 知 类 别 数 。 

(2) 可 人 为 指定 初始 位 置 。 

(3) 节省 运算 时 间 。 

(4) 只 能 使 用 连续 性 变量 。 


2. 聚 类 算法 的 分 类 


A) 划分 方法 (PArtitioning Method,PAM) 。 首 先 创 建 上 个 划分 , 为 要 创建 的 划分 
个 数 ; 然后 利用 循环 定位 技术 通过 将 对 象 从 一 个 划分 移 到 另 一 个 划分 来 帮助 改善 划分 
质量 。 

(2) 层次 方法 (hierarchical method) 。 创 建 一 个 层次 以 分 解 给 定 的 数据 集 。 该 方法 
可 以 分 为 自 上 而 下 (分 解 ) 和 自 下 而 上 (合并 ) 两 种 操作 方式 。 为 弥补 分 解 与 合并 的 不 足 ， 
层次 合并 经 常 要 与 其 他 聚 类 方法 相 结合 ,如 循环 定位 。 

(3) 基于 密度 的 方法 。 根 据 密 度 完 成 对 象 的 聚 类 , 它 根 据 对 象 周围 的 密度 (如 
DBSCAN) 不 断 增长 聚 类 。 

(4) 基于 网 格 的 方法 。 首 先 将 对 象 空间 划分 为 有 限 个 单元 以 构成 网 格 结构 ,然后 利 
用 网 格 结构 完成 聚 类 。 

(5) 基于 模型 的 方法 。 它 假设 每 个 聚 类 的 模型 并 发 现 适 合 相应 模型 的 数据 。 
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13.1.5 离 群 点 检测 


定义 : 在 样本 空间 中 与 其 他 样本 点 的 一 般 行为 或 特征 不 一 致 的 点 称 为 离 群 点 。 
1. 离 群 点 产生 的 原因 


CD 计算 的 误差 或 者 操作 的 错误 所 致 。 例 如 某 人 的 年 龄 为 一 10 岁 , 这 就 是 明显 由 误 
操作 所 导致 的 离 群 点 。 

(2) 数据 本 身 的 可 变性 或 弹性 所 致 。 例 如 一 个 公司 中 CEO 的 工资 肯定 明显 高 于 其 
他 普通 员工 的 工资 ,于 是 CEO 变 成 由 于 数据 本 身 可 变性 所 导致 的 离 群 点 。 


2. 离 群 点 检测 方法 


1) 基于 统计 分 布 的 离 群 点 检测 

统计 学 方法 是 基于 模型 的 方法 , 即 为 数据 创建 一 个 模型 ,并 且 根 据 对 象 拟 合 模型 的 
情况 来 评估 它们 。 大 部 分 用 于 离 群 点 检测 的 统计 学 方法 都 是 构建 一 个 概率 分 布 模型 ,并 
考虑 对 象 有 多 大 可 能 符合 该 模型 。 

离 群 点 的 概率 定义 是 : 离 群 点 是 一 个 对 象 关于 数据 的 概率 分 布 模型 , 它 具 有 低 概率 。 
这 种 情况 的 前 提 是 用 户 必须 知道 数据 集 服从 什么 分 布 ,如 果 估 计 错 误 就 造成 了 重 尾 
分 布 。 

异常 检测 的 混合 模型 方法 是 : 对 于 异常 检测 ,数据 用 两 个 分 布 的 混合 模型 建 模 ,一 个 
分 布 为 普通 数据 . 另 一 个 为 离 群 点 。 

聚 类 和 异常 检测 目标 都 是 估计 分 布 的 参数 ,以 最 大 化 数据 的 总 似 然 (概率 )。 在 聚 类 
时 ,使 用 EM 算法 估计 每 个 概率 分 布 的 参数 。 然 而 这 里 提供 的 异常 检测 技术 使 用 一 种 更 
简单 的 方法 ,初始 时 将 所 有 对 象 放 和 人 普通 对 象 集 , 而 异常 对 象 集 为 空 , 然 后 用 一 个 迭代 过 
程 将 对 象 从 普通 集 转移 到 异常 集 ,只 要 该 转移 能 提高 数据 的 总 似 然 (其 实 等 价 于 把 在 正 
常 对 象 的 分 布下 具有 低 概 率 的 对 象 分 类 为 离 群 点 )。 假 设 异 常 对 象 属于 均匀 分 布 ,异常 
对 象 由 这 样 一 些 对 象 组 成 ,这 些 对 象 在 均匀 分 布下 比 在 正常 分 布下 具有 显著 更 高 的 
概率 。 

2) 基于 距离 的 离 群 点 检测 

基于 距离 的 离 群 点 检测 指 的 是 ,如 果 样 本 空间 D 中 至 少 有 N 个 样本 点 与 对 象 O 的 
距离 大 于 dmin: 那 么 称 对 象 O 是 以 {至 少 N 个 样本 点 } 和 dmin 为 参数 的 基于 距离 的 离 

其 实 可 以 证 明 , 在 大 多 数 情 况 下 .如 果 对 象 O 是 根据 基于 统计 的 离 群 点 检测 方法 发 


201 


D 大 数据 基础 及 应 用 


现 的 离 群 点 ,那么 肯定 存在 对 应 的 N 和 dmin, 于 是 它 也 成 为 基于 距离 的 离 群 点 。 

这 个 方法 的 缺点 是 : 要 求 数据 分 布 均匀 , 当 数 据 分 布 不 均匀 时 ,基于 距离 的 离 群 点 检 
测 将 遇 到 困难 。 

3) 基于 密度 的 局 部 离 群 点 检测 

一 个 对 象 如 果 是 局 部 离 群 点 ,那么 相对 于 它 的 局 部 领域 , 它 是 远离 的 。 

不 同 于 前 面 的 方法 ,基于 密度 的 局 部 离 群 点 检测 不 将 离 群 点 看 作 一 种 二 元 性 质 , 即 
不 是 简单 地 用 Yes 或 No 来 断定 一 个 点 是 否 为 离 群 点 ,而 是 用 一 个 权 值 来 评估 它 的 离 
群 度 。 

它 是 局 部 的 ,该 程度 依赖 于 对 象 相对 于 其 领域 的 孤立 情况 。 使 用 这 种 方法 可 以 同时 
检测 出 全 局 离 群 点 和 局 部 离 群 点 。 

通过 基于 密度 的 局 部 离 群 点 检测 能 在 样本 空间 数据 分 布 不 均匀 的 情况 下 准确 地 发 
现 离 群 点 。 

4) 基于 偏差 的 离 群 点 检测 

基于 偏差 的 离 群 点 检测 通过 检查 一 组 对 象 的 主要 特征 来 识别 离 群 点 ,具有 “偏差 ”这 
种 特征 的 点 就 认为 是 离 群 点 。 

通常 有 两 种 技术 : 顺序 异常 技术 和 OLAP 数据 立方 体 技术 。 


13.1.6 复杂 数据 类 型 的 挖掘 


复杂 数据 类 型 的 挖掘 包括 复杂 对 象 .空间 数据 .多 媒体 数据 ,时间 序列 数据 ,文本 数 
据 和 Web 数据 。 

复杂 结构 化 数据 的 存 取 方 法 在 对 象 关系 和 面向 对 象 数据 库 系统 中 已 有 研究 。 在 这 
些 系统 中 ,大 量 的 复杂 数据 对 象 组 织 为 类 ,类 又 按 类 / 子 类 的 层次 加 以 组 织 。 类 中 的 每 个 
对 象 具 有 : 一 个 对 象 标识 ; 一 组 属性 ,它们 可 以 具有 复杂 的 数据 结构 ,如 集合 (set) 值 或 列 
表 (ist) 值 数据 、 类 复合 层次 (class composition hierarchies) ,多 媒体 数据 等 ; 一 组 方法 ， 
用 于 说 明 与 对 象 类 相关 的 计算 程序 或 规则 。 

对 象 关 系 和 面向 对 象 数 据 库 的 主要 特征 就 是 对 复杂 结构 数据 (如 集合 值 和 列表 值 数 
据 , 以 及 具有 嵌 套 结构 的 数据 ) 的 存储 ,访问 和 建 模 。 

下 面 介绍 数据 的 概 化 。 


1. 集合 值 属 性 概 化 


将 集合 中 的 每 一 个 值 概 化 为 其 对 应 的 更 高 级 别 的 概念 或 者 导出 集合 的 一 般 特征 ,如 
集合 中 元 素 的 个 数 .集合 中 类 型 或 值 的 区 间 分 布 或 数字 数据 的 加 权 平 均 。 
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集合 值 属性 可 以 概 化 为 集合 值 属性 或 单 值 属性 ; 若 单 值 属性 形成 一 个 格 (lattice) 或 
“层次 ”或 概 化 有 不 同 的 概 化 路 径 , 则 它 可 以 概 化 为 一 个 集合 值 属 性 ; 进一步 说 ,在 概 化 
集合 值 属性 上 的 概 化 应 遵循 集合 中 每 一 个 值 的 概 化 路 径 。 


2. 列表 值 属 性 概 化 


与 集合 值 属性 类 似 ,在 概 化 中 要 保持 元 素 的 次 序 。 列 表 中 的 每 一 个 值 可 以 概 化 为 其 
对 应 的 高 级 别 概念 ,或 者 把 一 个 列表 概 化 为 一 般 特征 ,如 列表 长 度 、 列 表 元 素 类 型 . 值 区 
间 、 数 字 值 的 加 权 平 均 ,或 删除 列表 中 不 重要 的 元 素 。 一 个 列表 可 以 概 化 为 列表 ,集合 或 
单一 值 。 


13.2 应 用 实践 


13.2.1 广告 点 击 率 预测 


竞价 广告 是 商业 搜索 引擎 公司 的 主要 收入 来 源 ,广告 商 提供 创意 并 对 关键 词 竞价 ， 
当 搜索 引擎 用 户 发 出 搜索 关键 词 时 触发 购买 了 该 关键 词 的 厂商 广告 ,对 于 多 个 被 触发 的 
广告 存在 一 个 广告 创意 排名 的 问题 , 即 需要 确定 应 该 将 哪些 广告 展示 出 来 以 及 其 展示 
顺序 。 

CTR(Click Through Rate) 代 表 广 告 的 点 击 率 , 一 般 用 广告 点 击 量 和 展示 次 数 的 比 
率 来 计算 ,其 表征 广告 和 用 户 需 求 的 匹配 程度 ,CTR 越 高 ,广告 排名 越 高 。 至 于 如 何 估算 
CTR ,一 种 直观 的 想法 是 根据 广告 的 历史 点 击 率 信息 来 进行 估算 。 对 于 某 个 查询 词 , 假 
设 广告 A 在 1000 次 展示 中 被 点 击 了 10 次 ,那么 可 以 估算 其 CTR 为 0.0.1。 这 种 思路 看 
似 简 单 ,但 是 并 不 可 行 ,主要 原因 是 使 用 历史 数据 量 不 足以 估算 出 可 信 数 值 。 因 此 必须 
采用 一 定 的 技术 手段 来 合理 地 估算 广告 的 CTR ,一 般 做 法 是 利用 逻辑 回归 等 机 器 学 习 模 
型 来 根据 查询 和 广告 的 特征 对 CTR 进行 预 估 。 

阿里 妈妈 目前 负责 阿里 的 广告 业务 .他 们 希望 提高 广告 CTR 预 估 的 准确 性 ,但 面临 
两 大 挑战 : 一 是 数据 规模 庞大 .涉及 百 亿 级 别 的 记录 ; 二 是 数据 每 天 都 在 更 新 ,对 模型 性 
能 要 求 更 高 。 目 前 基于 ODPS 机 器 学 习 框 架 , 通 过 逻辑 回归 算法 实现 模型 训练 ,然后 把 
训练 结果 输出 给 线 上 服务 的 广告 投放 引擎 。 


13.2.2 并 行 随机 梯度 下 降 


并 行 随机 梯度 下 降 是 Yahoo! 提出 的 一 种 简单 的 基于 数据 并 行 的 随机 梯度 下 降 
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算法 。 

假设 以 c: 代 表 训 练 数据 ,其 中 in Vg f A EF R, T FUR BE AY BI. 
Wi 代表 第 i 轮 迭 代 时 的 特征 权重 向 量 , 假 设 有 k 台 可 并 发 运行 的 随机 梯度 下 降 (SGD) 机 
器 , 则 其 执行 逻辑 为 : 首先 总 控 程序 将 所 有 的 续 联 数据 分 发 到 & 台 服 务 器 ,每 台 服 务 器 获 
得 完整 的 训练 数据 ,然后 每 台 服务 器 可 并 行 执行 单机 SGD 任务 ,单机 SGD 任务 顺序 地 从 
所 有 的 训练 数据 中 随机 抽样 ,并 根据 其 梯度 的 反方 向 作为 目标 函数 下 降 方向 ,每 次 以 7 
步 长 更 新 特征 权重 向 量 ,如 此 反复 执行 工 次 ,每 台 服 务 器 的 单机 SGD 任务 可 以 得 到 yield 
模型 参数 ,之 后 总 控 程序 从 每 台 服 务 器 收集 到 各 自 的 模型 ,通过 取 均 值 的 方式 获得 最 终 
的 模型 参数 。 

尽管 这 个 方法 看 上 去 非常 简单 ,但 是 论文 作者 证 明了 这 个 算法 的 可 收敛 性 。 


13.2.3 自然 语言 处 理 : 文档 相似 性 的 计算 


计算 文档 集合 内 任意 两 个 文档 的 相似 性 在 自然 语言 处 理 中 是 非常 常见 的 应 用 场景 。 
典型 的 计算 任意 两 个 文档 之 间 的 相似 性 的 计算 复杂 度 是 OG?) ,如 果 文 档 集合 较 小 ,是 可 
以 单机 处 理 的 ,但 是 如 果 文 档 集合 规模 较 大 ,如 百 万 级 别 , 那 么 只 能 考虑 通过 多 机 并 行 来 
进行 计算 。 这 是 一 种 典型 的 非 和 迭代 式 批 处 理 任 务 , 所 以 很 适合 使 用 MapReduce 来 解决 。 

下 面 介 绍 如 何 计算 两 个 文档 的 文本 相似 性 。 在 文本 处 理 任务 中 ,一 般 将 一 个 文档 d 
在 内 部 以 特征 向 量 克 “来 表示 ,每 个 单词 : 对 应 特征 向 量 中 的 一 维 ,以 Wa 来 表征 单词 1 在 
文档 中 的 权重 。 通 过 这 种 方式 ,每 个 文档 都 表达 为 特征 向 量 ,可 以 使 用 两 个 特征 向 量 
的 内 积 来 表示 两 个 文档 的 文本 相似 性 , 即 如 下 公式 : 

sim(di di) = >) Wis * Wig 


teV 


其 中 ,V 是 单词 集合 的 大 小 , 即 特征 向 量 的 维 数 。 从 上 面 的 公式 可 以 看 出 ,只 有 当 某 个 单 
词 同时 出 现在 两 个 文档 中 时 其 对 应 维度 特征 的 乘积 才 不 为 0。 有 了 计算 文档 相似 性 的 公 
式 , 就 可 以 在 此 基础 上 计算 文档 集合 内 任意 两 个 文档 的 文本 相似 性 。 

一 种 简单 .粗暴 的 方式 是 对 任意 两 个 文档 根据 公式 进行 计算 ,但 是 其 实 可 以 对 公式 
进行 优化 。 优 化 的 基本 思路 是 : 对 于 任意 两 个 文档 来 说 ,考虑 任意 单词 + 对 于 其 相似 性 
计算 的 影响 ,很 明显 ,如 果 :在 任意 一 个 文档 中 没有 出 现 , 则 其 对 两 者 相似 性 的 贡献 为 0， 
即 只 有 两 个 文档 同时 包含 单词 1, 那么 单词 1 才 对 这 两 者 的 相似 性 有 影响 。 如 果 从 单词 i 
的 角度 出 发 ,能 够 记录 哪些 文档 包含 了 单词 :并 形成 一 个 集合 ,那么 对 单词 :来 说 ,其 只 
对 集合 中 文档 的 两 两 相似 性 做 出 贡献 。 

如 果 文 档 的 集合 较 大 ,可 以 考虑 使 用 两 个 连续 的 MR 任务 来 完成 上 述 计 算 流 程 。 第 
一 个 MR 任务 是 建立 单词 索引 的 过 程 ,任务 的 输入 是 文档 d. Map 阶段 输出 的 Key 为 单 
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i t, Value 为 包含 这 个 单词 的 文档 ID 及 单词 权重 ; Reduce 阶段 将 包含 单词 1 的 文档 进 
行 汇 总 ,并 将 倒 排 索引 写 和 磁盘。 有 了 单词 的 倒 排 索引 , 则 第 二 个 阶段 MR 任务 即 可 计 
算 文 档 相 似 性 。 其 输入 为 第 一 个 阶段 MR 任务 输出 的 单词 侄 排 索引 ,对 于 某 个 单词 来 
说 ,Map 阶段 计算 这 个 单词 对 其 倒 排 索引 文档 集合 中 任意 两 个 文档 相似 性 的 贡献 ,如 果 


倒 排 索引 中 包含 m Ae IEM m * (m 一 1) 次 计算 。 本 阶段 输出 的 Key 为 文 


档 ,Value 为 wi * wajo Reduce 阶段 则 对 相同 文档 对 的 所 有 Value 值 进行 累加 , 即 累 加 
不 同 单词 对 两 个 文档 相似 性 计算 的 贡献 ,这 样 即 可 得 出 两 个 文档 的 整体 相似 性 。 

通过 以 上 方式 即 可 对 大 规模 文本 计算 集合 计算 其 两 两 相似 性 。 实 验 表 明 , 文 档 大 小 
和 计算 时 间 基 本 呈 线 性 增长 关系 ,所 以 这 是 一 种 可 扩展 的 计算 方法 ,但 是 这 种 计算 方式 
也 有 问题 ,在 计算 文档 相似 性 的 第 二 阶段 MR 任务 的 过 程 中 ,Map 阶段 的 输出 存在 组 合 
爆炸 问题 ,会 产生 大 量 的 中 间 结 果 文 件 ,从 而 占用 了 大 量 的 磁盘 空间 ,同时 降低 了 计算 效 
率 。 为 了 减少 中 间 文 件数 量 , 可 以 采用 DF-Cut 的 优化 方法 , 即 把 某 些 停 用 词 或 者 常用 词 
进行 过 滤 , 这 样 可 以 极 大 地 减少 中 间 结 果 文 件 的 大 小 及 Reduce 阶段 的 计算 量 , 同 时 因为 
DF 值 大 的 单词 往往 意味 着 较 少 的 信息 含量 ,即使 将 其 过 滤 , 对 于 相似 性 计算 结果 也 不 会 
有 很 大 的 影响 。 


13.2.4 阿里 云 PAI 与 ET 


阿里 云 PAICPlatform of Artificial Intelligence) 是 阿里 ( 即 阿里 巴巴 集团 ) 的 智能 平 
台 , 其 目的 是 为 了 加 速 整个 创新 过 程 ,提高 工作 效率 。 该 平台 是 基于 阿里 云 的 云 计算 平 
台 , 具 有 处 理 超大 规模 数据 的 能 力 和 分 布 式 的 存储 能 力 , 同 时 整个 模型 支持 超大 规模 的 
建 模 以 及 GPU 计算 。 此 外 ,该 平台 还 具有 社区 的 特点 : 实验 结果 可 共享 ,社区 团队 相互 
协作 。 该 智能 平台 主要 分 为 3 层 .第 一 层 是 Web UI 界面. 第 二 层 是 IDST 算法 层 ,最 后 
一 层 是 MaxCompute 平台 层 。 

PAL 的 特点 如 图 13-1 所 示 , 其 主要 特点 有 适合 大 数据 分 析 、 具 有 分 布 式 计算 的 架构 、 
集成 大 量 高 级 算法 、 具 备 完整 的 数据 挖掘 功能 和 良好 的 图 形 界面 。 

该 平台 通过 交互 的 界面 降低 了 技术 门槛 ,使 用 者 可 以 轻松 实现 数据 挖掘 的 工作 ,而 
无 需 太 多 经 验 ; 其 次 ,其 内 艇 的 算法 都 经 过 阿里 内 部 多 年 的 淳 炼 ,在 性 能 和 准确 率 上 都 有 
较 大 的 提升 ; 最 后 是 数据 智能 ,该 平台 提供 了 从 元 数据 到 模型 部 署 的 整套 流程 ,通过 提供 
基本 的 组 件 ,使 用 者 可 以 搭建 各 个 垂直 场景 下 的 解决 方案 。 

其 客户 主要 包括 以 下 几 类 : 一 类 是 传统 的 大 型 企业 和 政府 部 门 ,如 中 石化 .中 石油 、 
气象 局 等 ; 另 一 类 是 中 小 企业 ,主要 是 公共 云 上 的 初创 用 户 ; 以 及 一 些 个 人 用 户 , 如 数据 
科学 家 、 研 究 人 员 等 。 
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图 13-1 PAI 平 台 的 特点 
图 13-2 是 PAT 整体 框架 图 ,最 底层 是 基础 设施 层 ,包括 CPU 和 GPU 集群 ; 其 上 一 
层 是 阿里 提供 的 计算 框架 ,包括 MapReduce, SQL, MPI 等 计算 方式 ; 中 间 一 层 是 模型 算 
法 层 ,包含 数据 预 处 理 、 特 征 工程 .机 器 学 习 算法 等 基本 组 件 ,帮助 使 用 者 完成 简单 的 工 
作 ; 平台 化 产品 层 主 要 是 项 目 管理 .算法 模型 分 享 ,以 及 一 些 特定 的 需求 ; 最 上 层 是 应 用 
层 , 阿 里 内 部 的 搜索 ,推荐 .蚂蚁 金 服 等 项 目 在 进行 数据 挖掘 工作 时 都 是 依赖 PAL 平台 











产品 。 
| PAI 架构 图 E AlibabaCloud ED Alibaba Group 
e = E2ESE3EJIEJI 
平台 化 产品 "pem = 
mamas ce m sue | 于 度 学 习 模型 - CNN /DNN/RNN /LSTM 
计算 框架 
基础 设施 层 








图 13-2 PAI 整体 框 架 图 
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阿里 云 ET 则 是 基于 阿里 的 人 工 智能 平台 研发 的 人 工 智能 ,其 特色 在 于 基于 强大 的 
云 计算 和 大 数据 处 理 能 力 ,目前 ET 具备 语音 识别 .图 像 /视频 识别 ,交通 预测 、 情 感 分 析 
等 技能 ,并 朝 着 大 数据 AI 的 方向 发 展 。ET 的 前 身 是 阿里 云 小 AL, 它 曾 在 湖南 卫视 “我 
是 歌手 ”节目 中 准确 预测 决赛 歌 王 归属 李 玫 ,推动 人 工 智能 技术 向 理解 人 类 情感 迈 出 了 
重要 一 步 。 


13.3 深度 学 习 


13.3.1 深度 学 习 简 介 


深度 学 习 (Deep Learning) 是 机 器 学 习 的 分 支 , 它 试图 使 用 包含 复杂 结构 或 由 多 重 非 
线性 变换 构成 的 多 个 处 理 层 对 数据 进行 高 层 抽 象 的 算法 。 深 度 学 习 是 机 器 学 习 中 表征 
学 习 的 方法 。 观 测 值 (如 一 幅 图 片 ) 可 以 使 用 多 种 方式 来 表示 ,如 每 个 像素 强度 值 的 向 
量 , 或 者 更 抽象 地 表示 成 一 系列 边 、 特 定形 状 的 区 域 等 。 而 使 用 某 些 特定 的 表示 方法 更 
容易 从 实例 中 学 习 任务 。 深 度 学 习 的 好 处 是 将 用 非 监 督 式 学 习 或 半 监 督 式 的 特征 学 习 
和 分 层 特征 提取 的 高 效 算法 来 替代 手工 获取 特征 。 

深度 学 习 框 架 ,尤其 是 基于 人 工 神经 网 络 的 框架 可 以 追溯 到 1980 年 福 岛 邦彦 提出 
的 新 认 知 机 ,而 人 工 神经 网 络 的 历史 更 为 久远 。1989 4E. WERTE Yann LeCun) 等 人 开始 
将 1974 年 提出 的 标准 反 向 传播 算法 应 用 于 深度 神经 网 络 , 这 一 网 络 被 用 于 手写 邮政 编 
码 的 识别 。 尽 管 该 算法 可 以 成 功 执行 ,但 计算 代价 非常 巨大 ,神经 网 络 的 训练 时 间 达 到 
f 3 天 ,因而 无 法 投入 实际 使 用 。 许 多 因素 导致 了 这 一 缓慢 的 训练 过 程 , 其 中 一 种 是 由 
于 尔 根 。 施 密 德 胡 伯 (Jiirgen Schmidhuber) 的 学 生 赛 普 ， 霍 克 赖 特 (Sepp Hochreiter) 于 
1991 年 提出 的 梯度 消失 问题 。 与 此 同时 ,神经 网 络 也 受到 了 其 他 更 加 简单 的 模型 的 挑 
战 ,支持 向 量 机 等 模型 在 20 世纪 90 年 代 到 21 世纪 初 成 为 更 加 流行 的 机 器 学 习 算法 。 

“深度 学 习 ” 这 一 概念 从 2007 年 前 后 开始 受到 关注 ,当时 , 杰 弗 里 。 辛 顿 (Geoffrey 
Hinton) f= < PERLAR T HiK (Ruslan Salakhutdinov) 提 出 了 一 种 在 前 馈 神经 网 络 
中 进行 有 效 训 练 的 算法 。 这 一 算法 将 网 络 中 的 每 一 层 视 为 无 监督 的 受 限 玻 尔 效 曼 机 ,再 
使 用 有 监督 的 反 向 传播 算法 进行 调 优 。 在 此 之 前 的 1992 年 ,在 更 为 普遍 的 情形 下 , 施 密 
德 胡 伯 也 曾 在 递归 神经 网 络 上 提出 一 种 类 似 的 训练 方法 ,并 在 实验 中 证 明 这 一 训练 方法 
能 够 有 效 地 提高 有 监督 学 习 的 执行 速度 。 

自 深度 学 习 出 现 以 来 , 它 已 成 为 很 多 领域 (尤其 是 计算 机 视觉 和 语音 识别 ) 各 种 领先 
系统 的 一 部 分 。 在 通用 的 用 于 检验 的 数据 集 ( 如 语音 识别 中 的 TIMIT 和 图 像 识 别 中 的 
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ImageNet、Cifar10) 上 的 实验 证 明 ,深度 学 习 能 够 提高 识别 的 精度 。 
硬件 的 进步 也 是 深度 学 习 重 新 获得 关注 的 重要 因素 。 高 性 能 图 形 处 理 器 的 出 现 极 
大 地 提高 了 数值 和 和 矩阵 运算 的 速度 ,使 得 机 器 学 习 算法 的 运行 时 间 得 到 了 显著 的 缩短 。 


13.3.2 DistBelief 


实验 表明 , 当 增 加 深度 神经 网 络 的 规模 (包括 增加 训练 数据 和 模型 参数 规模 ) 时 , 深 
度 学 习 模 型 的 分 类 精度 会 有 大 幅度 提高 。 但 是 当 模型 的 训练 数据 的 规模 达到 千 万 量 级 、 
模型 参数 达到 10 亿 量 级 时 ,GPU MR 等 方式 的 并 行 计 算 架 构 都 无 法 有 效 地 解决 此 等 规模 
的 问题 。 为 了 能 够 解决 如 此 规模 的 机 器 学 习 应 用 问题 ,Google 开发 了 DistBelief 分 布 式 计 
算 框架 ,在 本 质 上 ,DistBelief 是 能 够 同时 支持 数据 并 行 和 模型 并 行 的 参数 服务 器 架构 。 

SGD 是 深度 学 习 模 型 训练 过 程 最 常用 的 参数 优化 方法 ,下 面 介绍 DistBelief 参数 服 
务 器 框架 下 的 两 个 并 行 训练 方法 ,其 中 一 个 是 在 线 学 习 (Online Learning) 方 法 ,被 称 为 
Downpour SGD, 另 一 个 是 批 学 习 (Batch Learning) 版 本 ,被 称 为 Sandblaster L-BFGS。 

SGD 作为 一 个 在 线 学 习 模 型 .本 质 上 是 一 个 串 行 算法 ,需要 依次 根据 训练 数据 更 新 
模型 参数 ,而 这 对 于 大 规模 的 训练 数据 在 效率 上 是 无 法 接受 的 。Downpour SGD 可 以 提 
高 训练 效率 ,其 本 质 是 采用 Mini-Batch 方式 更 新 参数 的 异步 SGD 模型 。 

首先 将 训练 数据 划分 成 若干 子 集合 ,每 个 子 集合 各 自 进行 模型 训练 , 子 集合 当前 正 
在 训练 的 模型 可 以 成 为 模型 副本 。 在 训练 过 程 中 ,副本 模型 通过 和 保存 全 局 模型 参数 的 
参数 服务 器 通信 来 获得 全 局 参数 或 者 通知 其 进行 参数 更 新 。 参 数 服 务 器 本 身 也 是 服务 
器 集群 ,并 对 全 局 参数 进行 数据 分 片 ,每 个 数据 分 片 负 责 一 部 分 全 局 参数 的 存储 与 数值 
更 新 。 之 所 以 说 Downpour SGD 是 异步 的 ,其 含义 有 两 个 方面 : 一 方面 是 每 个 副本 模型 
各 自 异 步 地 执行 ; 另 一 方面 ,参数 服务 器 的 数据 分 片 之 间 也 是 相互 独立 ,无 须 同步 更 新 
的 。 通 过 双方 面 的 异步 执行 有 效 地 加 快 了 训练 速度 。 

在 每 个 副本 模型 利用 训练 子 集合 进行 Mini-Batch 更 新 参数 之 前 ,其 首先 从 参数 服务 
器 获取 当前 的 全 局 模型 参数 。 因 为 DistBelief 支持 模型 并 行 , 即 每 个 副本 模型 本 身 也 是 
分 布 到 多 台 机 器 上 的 ,所 以 每 台 机 器 只 需要 和 对 应 存储 的 与 自身 参数 一 致 的 参数 服务 器 
进行 通信 和 即 可 得 到 全 局 模型 参数 ,这 样 可 以 有 效 地 减少 数据 传输 量 。 在 接收 到 全 局 模型 
参数 之 后 ,副本 模型 运行 一 次 Mini-Batch 更 新 ,计算 局 部 梯度 ,然后 将 局 部 梯度 传 给 对 应 
的 参数 服务 器 ,参数 服务 器 根据 局 部 梯度 来 更 新 全 局 模型 参数 。 通 过 设 定 每 隔 xiea 步 来 
进行 一 次 拉 取 全 局 模型 参数 操作 以 及 设 定 每 隔 nosw 步 来 进行 一 次 局 部 梯度 数据 操作 ,可 
以 有 效 地 控制 通信 总 量 。 与 标准 的 同步 SGD 相 比 ,异步 SGD 有 更 好 的 容错 性 。 当 某 个 
机 器 发 生 故 障 时 并 不 影响 其 他 机 器 异步 更 新 全 局 模型 参数 。 尽 管 无 法 从 理论 上 保证 异 
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步 SGD 的 正确 性 ,但 是 实验 效果 表明 ,其 计算 精度 可 以 达到 与 类 似 算法 相近 的 效果 , 同 
时 运行 效率 也 获得 了 极 大 的 提升 。 


13.3.3 TensorFlow 


TensorFlow 是 Google 公司 于 2015 年 发 布 的 机 器 学 习 平台 ,发 布 以 后 由 于 速度 快 、 
扩展 性 好 ,推广 速度 很 快 。 

TensorFlow, 从 名 字 来 看 就 是 张 量 的 流动 。 张 量 (tensor) 即 任意 维度 的 数据 ,一 维 、 
二 维 、 三 维 `. 四 维 等 数据 统称 为 张 量 。 张 量 的 流动 则 是 指 保持 计算 节点 不 变 , 让 数据 进行 
流动 。 这 样 的 设计 是 针对 连接 式 的 机 器 学 习 算 法 ,如 逻辑 回归 、 神 经 网 络 等 。 连 接 式 的 
机 器 学 习 算法 可 以 把 算法 表达 成 一 张 图 , 张 量 从 图 中 从 前 到 后 走 一 遍 就 完成 了 前 向 运 
算 ; 而 残 差 从 后 往 前 走 一 遍 就 完成 了 后 向 传播 。 

在 TF 的 实现 中 ,机 器 学 习 算 法 被 表达 成 图 ,图 中 的 节点 是 算 子 (operation) ,节点 会 
有 0 到 多 个 输出 , 表 13-1 是 TF 实现 的 一 些 算 子 。 


表 13-1 TF 实现 的 算 子 








类 3 例 F 
Element-wise mathematical operations Add, Sub, Mul, Div, Exp. Log Greater, Less, Equal 等 
Array operations Concat Slice Split, Constat, Rank, Shape .Shuffle 等 
Matrix operations MatMul,MatrixInverse, MatrixDeterminant 等 
Stateful operations Variable, Assign, AssignAdd 等 
Neural-net building blocks SoftMax,Sigmoid, ReLU ,Convolution2D, MaxPool 等 
Checkpointing operations Save, Restore 
Queue and synchronization operations Enqueue, Dequeue, MutexAcquire, MutexRelease 等 
Control flow operations Merge Switch, Enter, Leave, NextIteration 


每 个 算 子 都 会 有 属性 ,所 有 的 属性 都 在 建 图 的 时 候 被 确定 下 来 ,最 常用 的 属性 是 为 
了 支持 多 态 ,比如 加 法 算 子 既 能 支持 float32 计算 ,又 能 支持 int32 计算 。 

TF 中 还 有 一 个 概念 是 kernel,kernel 是 operation 在 某 种 设备 上 的 具体 实现 。TF 
的 库 通过 注册 机 制 来 定义 op 和 kernel, 所 以 可 以 通过 链接 一 个 其 他 库 进 行 kernel 和 op 
的 扩展 。 

TF 的 图 中 的 边 分 为 下 面 两 种 。 

(1) 正常 边 。 正 常 边 上 可 以 流动 数据 , 即 正常 边 就 是 tensor。 

(2) 特殊 边 。 特 殊 边 又 称 控制 依赖 (control dependencies) 。 
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° 没有 数据 从 特殊 边 上 流动 ,但 是 特殊 边 却 可 以 控制 节点 之 间 的 依赖 关系 ,在 特殊 
边 的 起 始 节点 完成 运算 之 前 ,特殊 边 的 结束 节点 不 会 被 执行 。 

。 不 仅仅 非得 有 依赖 关系 才 可 以 用 特殊 边 ,还 可 以 有 其 他 用 法 ,例如 控制 内 存 的 时 
候 可 以 让 两 个 实际 并 没有 前 后 依赖 关系 的 运算 分 开 执 行 。 

。 特殊 边 可 以 在 client 端 被 直接 使 用 。 

客户 端 使 用 会 话 和 TF 系统 交互 。 一 般 的 模式 是 : 建立 会 话 , 此 时 会 生成 一 张 空 图 ; 

在 会 话 中 添加 节点 和 边 , 形 成 一 张 图 ,然后 执行 。 
下 面 是 一 个 TF 的 会 话 示例 ,图 13-3 是 对 应 的 图 示 。 





import tensorflow as tf 


b= tf. Variable(tf.zeros([{100])) #100 - d vector, init to zeroes 

W= tf. Variable(tf. random_uniform( [784,100], —1,1)) # 784x100 matrix w/rnd vals 

x 7 tf. placeholder(name - "x") # Placeholder for input 

relu= tf. nn. relu(tf.matmul(W, x) + b) 3t Relu(Wx * b) 

c=[...] # Cost computed as a function 
it of Relu 


s= tf.Session() 

for step in xrange(0,10) : 
input = ...construct 100 - D input array... # Create 100 — d vector for input 
result = s. run(C, feed dict- (x:input]) # Fetch cost, feeding x = input 
print step, result 











图 13-3 TF 会 话 图 示 


机 器 学 习 算 法 都 会 有 参数 ,而 参数 的 状态 是 需要 保存 的 。 参 数 在 图 中 有 其 固定 的 位 
置 ,不 能 像 普通 数据 那样 正常 流动 。 因 而 ,在 TF 中 将 Variables 实现 为 一 个 特殊 的 算 子 ， 
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该 算 子 会 返回 它 所 保存 的 可 变 tensor 的 句柄 。 

TF 的 实现 分 为 以 下 几 个 部 分 : 

COD TF 中 对 最 重要 的 tensor 支持 得 非常 全 面 ,从 8bit 到 64bit.signed 和 unsigned. 
IEEE float/double.complex number 等 。 使 用 引用 计数 来 保存 tensor, 当 计 数 到 0 时 
tensor 被 回收 。 

(2) 客户 端 。 用 户 会 使 用 ,与 master 和 一 些 worker process 交流 。 

(3) master。 其 用 来 与 客户 端 交互 ,同时 调度 任务 。 

(4) worker process。 即 工作 节点 ,每 个 worker process 可 以 访问 一 到 多 个 device。 

(5) device。 即 TF 的 计算 核心 ,通过 device 的 类 型 job 名称、 在 worker process 中 
的 索引 对 device 命名 ,可 以 通过 注册 机 制 来 添加 新 的 device 实现 ,每 个 device 实现 需要 
负责 内 存 分 配 和 管理 调度 TF 系统 所 下 达 的 核 运 算 需 求 。 

TF 的 实现 分 为 单机 实现 和 分 布 式 实现 。 在 分 布 式 实现 中 ,需要 实现 的 是 对 client, 
master, worker process 不 在 同一 台 机 器 上 时 的 支持 。 分 布 式 和 单机 的 不 同 架构 如 图 13-4 
所 示 o 





single process 


client master 
run 








图 13-4 TF 的 单机 与 分 布 式 架构 
在 TF 出 现 之 前 已 经 有 很 多 类 似 的 平台 ,例如 Theano, Torch, Caffe, Chainer, 


Computational Network, 

可 以 说 ,TF 从 它 每 一 个 平台 中 都 吸取 了 一 些 特性 和 设计 思想 。TF 与 其 他 平台 的 区 
别 和 联系 如 下 。 

(1) 支持 符号 推导 ,如 Theano 和 Chainer。 

(2) 使 用 C++ 写 内 核 , 从 而 方便 跨 平台 部 署 .如 Caffe. 

(3) 支持 跨 设 备 计算 ,让 用 户 高 层 表 达 模 型 ,如 Adam 和 DistBelief, 但 比 Adam 和 
DistBelief 更 优越 的 是 更 有 弹性 ,支持 更 多 的 模型 。 

(4) 相对 于 Adam, DistBelief 和 Parameter Server. TF 把 参数 节点 化 ,更 新 操作 也 是 
图 中 的 一 个 节点 ,而 Adam 等 3 个 会 有 一 个 独立 的 Parameter Server。 

(5) Halide 拥有 和 TF 相似 的 中 间 表 达 , 却 有 更 高 级 的 语义 表示 ,在 并 行 方面 的 优化 
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更 多 ,但 却 是 单机 的 ,TF 有 意向 此 方向 发 展 ,将 Halide 的 特性 添加 到 TF 中 。 
13.4 数据 挖掘 与 机 器 学 习 的 发 展 趋势 


随 着 数据 挖掘 与 机 器 学 习 领 域 的 研究 不 断 深 入 和 广泛 ,人 们 关注 的 焦点 也 有 了 新 的 
变化 ,总 的 趋势 是 数据 挖掘 与 机 器 学 习 的 研究 和 应 用 更 加 “社会 化 "和 “大 数据 化 ”"。 数 据 
挖掘 与 机 器 学 习 的 理论 和 应 用 在 相当 一 段 时 间 继 续 保持 稳定 发 展 ,但 有 着 朝向 大 规模 的 
社交 数据 分 析 和 时 间 序 列 数 据 分 析 方 向 发 展 的 趋势 。 在 用 户 层面 ,移动 计算 设备 的 普及 
与 大 数据 革命 带 来 的 机 遇 使 得 搜索 引擎 对 用 户 所 处 的 上 下 文 环境 具有 了 前 所 未 有 的 深 
刻 认识 ,但 对 于 如 何 将 认识 上 的 深入 转化 为 用 户 信 息 获取 过 程 的 便利 仍然 缺乏 成 功 经 
验 。 除 此 之 外 ,社交 网 络 服务 的 兴起 对 互联 网 数据 环境 和 用 户 群 体 均 将 形成 关键 性 的 影 
响 , 如 何 更 好 地 面 对 相 对 封闭 的 社交 网 络 数据 环境 和 被 社交 关系 组 织 起 来 的 用 户 群 体 也 
是 数据 挖掘 面临 的 机 遇 和 挑战 。 可 以 预见 会 有 更 多 的 研究 深入 探讨 数据 挖掘 的 本 质问 
题 ,不 断 完善 其 理论 基础 。 同 时 ,数据 挖掘 与 机 器 学 习 的 应 用 关注 “大 数据 ”的 趋势 越 来 
越 明 显 。 在 大 规模 数据 下 如 何 保证 现 有 数据 挖掘 算法 的 时 间 和 空间 复杂 度 的 应 用 成 为 
研究 热点 。 对 于 数据 挖掘 与 机 器 学 习 技术 ,除了 要 求 有 好 的 效果 之 外 ,往往 还 要 求 其 能 
够 被 高 效 地 实现 ,以 适用 于 更 大 规模 、 更 高 速 演化 的 网 络 数据 。 此 外 , 另 一 个 研究 热点 将 
是 网 络 安全 、 隐 私 以 及 软件 可 靠 性 和 可 扩展 性 。 


13.5 习题 


. 简 述 批量 计算 与 流 式 计算 的 区 别 。 

. 简 述 交互 式 数据 处 理 的 应 用 场景 。 

.简要 介绍 机 器 学 习 的 分 类 。 

.简要 介绍 监督 学 习 中 用 于 度量 预测 的 错误 程度 的 函数 。 

.对 于 广告 点 击 率 问题 ,使 用 逻辑 回归 算法 来 确定 广告 展 出 与 否 以 及 广告 展 出 的 


ne w Ne 


6. 简 述 如 何 对 大 规模 文档 进行 相似 性 计算 。 
7. 简 述 并 行 随机 梯度 下 降 算法 。 
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14.1 数据 集 简介 


阿里 移动 推荐 数据 竞赛 是 以 阿里 巴巴 移动 电 商 平台 的 真实 用 户 -商品 行为 数据 为 基 
础 ,同时 提供 了 移动 时 代 特 有 的 位 置信 息 。 目 前 可 以 在 tianchi. shuju. aliyun. com 的 天 
池 新 人 实战 赛 之 “平台 赛 " 找 到 该 数据 集 , 该 数据 集 提供 了 100 万 用 户 的 完整 行为 数据 以 
及 百 万 级 的 商品 信息 。 其 中 训练 数据 包含 了 抽样 出 来 的 一 定量 用 户 在 一 个 月 时 间 
(11.18 一 12.18) 之 内 的 移动 端 行为 数据 (D) ,评分 数据 是 这 些 用 户 在 这 一 个 月 之 后 的 一 
天 (12.19) 对 商品 子 集 (P) 的 购买 数据 。 参 赛 者 要 使 用 训练 数据 建立 推荐 模型 ,并 输出 用 
户 在 接 下 来 的 一 天 对 商品 子 集 购买 行为 的 预测 结果 。 

在 数 加 平台 上 ,研究 者 们 可 以 基于 此 数据 集 通过 大 数据 分 析 工 具 和 算法 平台 构建 面 
向 移动 电子 商务 的 商品 推荐 模型 。 

当 进 入 自己 所 在 的 项 目 后 ,根据 赛 题 数据 的 描述 可 以 读 取 或 者 复制 对 应 的 表 到 自己 
的 项 目 空间 。 为 了 方便 操作 ,在 自己 的 项 目 空间 执行 以 下 SQL 语句 ,可 以 复制 相关 表 到 
自己 的 项 目 空间 。 





CREATE TABLE IF NOT EXISTS tianchi fresh comp train user online AS SELECT x FROM odps tc | 
257100. £6735066024. tianchi fresh comp train user online; 
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CREATE TABLE IF NOT EXISTS tianchi_fresh_comp_train_item_online AS SELECT * FROM odps_tc_| 


257100_£673506e024. tianchi_fresh_comp_train_item_online; 











14.2 数据 探索 


使 用 简单 的 SQL 语句 即 可 对 数据 进行 查看 ,如 图 14-1 所 示 。 
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图 14-1 用 SQL 语句 查看 数据 


图 14-2 展示 了 一 个 统计 用 户 数量 ,商品 数量 以 及 有 过 交互 的 用 户 -商品 对 数量 的 例 
子 , 可 以 看 到 在 用 户 行为 数据 表 中 用 户 数量 为 100 万 个 ,商品 数量 为 66 997 095 个 ,有 过 
交互 的 用 户 -商品 对 数量 为 444 526 713 个 。 这 样 总 的 用 户 -商品 对 数量 为 6. 699 709 5 X 


WE 


1 select 
count(distinct user id) as user count, 
somt(distinct item id) as item count, 

4 count(distinct user id item id) as user item count 

5 from tianchi fresh conp train user cnline;| 





日 志 SRN 
序号 user_count iem count ~ user item count 
1 1000000 66997095 444526713 


图 14-2 所 有 用 户 -商品 对 结果 
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图 14-3 则 只 统计 有 过 购买 行为 的 用 户 数 量 、 商 品 数量 以 及 用 户 -商品 对 数量 的 例子 ， 
可 以 看 到 有 过 购买 行为 的 用 户 数量 为 879 217 万 个 ,商品 数量 为 4237 620 个 ,用 户 -商品 
对 数量 为 9 852 779 个 。 可 以 看 到 ,有 过 购买 行为 的 用 户 -商品 对 数量 与 总 的 用 户 -商品 对 
数量 相 比 , 数 量 十 分 悬殊 ,即使 是 和 有 过 交互 行为 的 用 户 -商品 对 相 比 , 其 比例 也 仅 占 
2%, 即 购买 行为 十 分 稀 朴 。 


select 





count (distinct user_id item_id) as user item count 
fron tianchi fresh comp train user online where behavior type = 4; 


asune 


aS sex \ S#px 
序号 user_count item count user. item count 
1 879217 4237620 9852779 


图 14-3 有 过 购买 行为 的 商品 -用 户 对 结果 
使 用 算法 平台 的 统计 分 析 控 件 可 以 对 数据 进行 简单 的 可 视 化 处 理 。 例 如 图 14-4 是 
使 用 直方 图 控件 观察 不 同类 型 的 行为 数量 分 布 的 例子 ,4 种 类 型 的 行为 分 别 对 应 浏览 、 收 
藏 .加 购物 车 和 购买 。 
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图 14-4 不 同类 型 的 行为 数量 分 布 


14-5 是 使 用 直方 图 控件 观察 每 天 行为 数量 分 布 的 例子 ,可 以 看 到 在 双 12 当天 用 
户 行为 数量 出 现 了 一 个 高 峰 。 
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图 14-5 每 天 行为 数量 分 布 


14.8 方案 设计 


预测 用 户 未 来 的 购买 行为 是 推荐 实施 过 程 中 的 关键 步骤 ,预测 的 准确 率 将 直接 影响 
到 推荐 的 效果 。 如 何 提高 对 购买 行为 预测 的 准确 率 一 直 是 学 术 界 和 工业 界 关 注 的 话题 。 
对 于 每 一 个 用 户 -商品 对 来 说 ,预测 其 未 来 是 否 会 发 生 购买 行为 正好 可 以 对 应 到 机 器 学 习 
领域 的 二 分 类 问题 ,从 而 可 以 采用 机 器 学 习 中 的 二 分 类 模型 ,根据 用 户 的 历史 行为 数据 
对 用 户 和 商品 进行 建 模 , 对 用 户 未 来 的 购买 行为 进行 预测 。 


14.4 训练 集 构造 


14.4.1 MapReduce 环境 配置 


要 训练 一 个 二 分 类 模型 首先 需要 得 到 训练 集 ,而 产生 训练 集 需要 提取 特征 和 标签 。 
在 数 加 平台 上 进行 特征 提取 可 以 使 用 MaxCompute SQL, MapReduce 以 及 UDF 函数 ， 
其 中 编写 MapReduce 程序 提取 特征 相对 于 SQL 更 加 灵活 ,下 面 简 要 介绍 MapReduce 的 
环境 配置 。 

配置 MapReduce 的 环境 通常 需要 Maven 的 支持 ,安装 Maven 首先 需要 下 载 并 解压 
apache-maven-3. 3. 3-bin. zip, 然 后 新 建 环境 变量 M2_HOME 到 解压 目录 下 的 bin Hei 
置 完成 后 在 CMD 运行 mvn -v 可 以 观察 配置 是 否 成 功 ,安装 成 功 的 信息 如 图 14-6 所 示 。 
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ogram PilesNMavuaNjdkl-?7-9_5tNjre 
h_CN, platforn encod 
7". ve "6.1", "and64", family: “windows” 





图 14-6) mvn 安装 成 功 示意 图 
最 后 安装 Eclipse 的 Maven 插件 即 可 开始 创建 项 目 ,对 于 详细 的 配置 过 程 和 代码 编 
写 可 以 参考 (天 池 用 户 手 册 ._ 数 加 平台 》( 在 阿里 云 论坛 搜索 “ 数 加 平台 指南 ” 即 可 找到 该 
FD. 


14.4.2 MapReduce 代码 编写 


下 面 以 统计 每 一 个 用 户 -商品 对 的 4 种 行为 的 数量 为 例 来 说 明 如 何 编写 一 个 
MapReduce 程序 。 在 本 例 中 ,用 户 程 序 将 用 户 行为 表 作 为 输入 表 , 并 产生 
存 每 一 个 用 户 - 商 品 对 的 4 种 行为 的 数量 。 输 入 表 用 到 的 列 名 有 user id, item. id, 


behavior_type, 结 果 表 的 列 名 有 user_id ,item_id .ui_bro_cnt ui_fav_cnt ui_cart_cnt ui 








buy. ent, 
在 MyMapper 类 中 ,用 户 代 码 从 输入 表 中 读 取 用 户 ID .商品 ID .操作 类 型 信息 ,并 将 
用 户 ID 和 商品 ID 作为 OutputKey, 将 4 种 行为 的 统计 数量 分 别 命名 为 ui_bro ,ui_fav、 
ui_cart、ui_buy, 并 作为 OutputValue, OutputKey 和 OutputValue 均 传 给 Reduce Worker 做 
进一步 处 理 , 具 有 相同 OutputKey 的 一 条 记录 会 分 配给 同一 个 Reduce Worker。 
MyReducer 在 对 某 个 键 值 (OutputKey) 的 记录 进行 统计 之 后 将 键 值 对 应 的 用 户 ID. 
商品 ID 以 及 统计 结果 输出 到 结果 表 。 所 有 的 实现 代码 如 下 : 








package Feature. Count; 


import java. io. IOException; 


import java. util. Iterator; 


import com. aliyun. odps. data. Record; 
import com. aliyun. odps. data. TableInfo; 
import com. aliyun. odps. mapred. JobCl ient; 
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import com. aliyun. odps. mapred. MapperBase; 

import com. aliyun. odps. mapred. ReducerBase; 
import com. aliyun. odps. mapred. conf. JobConf ; 
import com. aliyun. odps. mapred. utils. InputUtils; 
import com. aliyun. odps. mapred. utils. OutputUtils; 
import com. aliyun. odps. mapred. utils.SchemaUtils; 


public class Count ( 


public static class MyMapper extends MapperBase ( 
private Record key; 


private Record value; 


(QOverride 

public void setup(TaskContext context) throws IOException { 
key = context. createMapOutputKeyRecord( ) ; 
value = context.createMapOutputValueRecord(); 


private void initRecord(Record outputValue) 
{ 
outputValue. setBigint("ui_bro", OL); 
outputValue. setBigint("ui_fav", OL); 
outputValue. setBigint("ui_cart", OL); 
outputValue. setBigint("ui_buy", OL); 


@Override 
public void map(long recordNum, Record record, TaskContext context) 
throws IOException { 


// 初 始 化 值 


initRecord(value); 


// 获 取信 息 
String user_id = record. getString("user_id"); 


String item id = record. getString("item_id"); 


long act type = record.getBigint("behavior type"); 
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int iact = (int)act_type; 


// 设 置 键 记录 
key. setString("user_id", user_id) ; 


key.setString("item id", item id); 


Switch( iact) 

{ 

// 在 这 里 添加 浏览 操作 功能 

case 1: 
value. setBigint("ui bro", 1L); 
break; 

// 在 这 里 添加 喜欢 的 动作 特性 

case 2: 
value. setBigint("ui_fav", 1L); 
break; 

// 在 这 里 添加 购物 车 操作 功能 

case 3: 

value. setBigint("ui_cart", 1L); 

break; 

:加 购买 行为 特性 


case 4: 





value. setBigint("ui buy", 1L); 
break; 

default: 
break; 


context. write(key, value); 


context. progress() ; 


/xx 
* A reducer class that just emits the sum of the input values. 
xx / 

public static class MyReducer extends ReducerBase ( 


private Record result; 
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@Override 
public void setup(TaskContext context) throws IOException { 


result = context. createQutputRecord( ); 


@Override 
public void reduce(Record key, Iterator < Record» values, TaskContext context) 
throws IOException { 
// 输 出 的 关键 
result. setString("user_id", key.getString("user_id")); 
result. setString("item_id", key.getString("item_id")); 
//action num counting variable 
long bro_cnt = OL, fav_cnt = OL, cart_cnt = OL, buy_cnt = OL; 
while(values. hasNext()) 
{ 
Record val = values. next(); 
// 计 数 操作 数 
bro_cnt += val.getBigint("ui bro"); 
fav_cnt += val.getBigint("ui fav"); 
cart cnt += val.getBigint("ui cart"); 
buy cnt += val.getBigint("ui buy"); 
) 
// 过 滤 非 交互 式 
if(bro cnt + fav cnt + cart cnt + buy cnt > 0) 
{ 
result. setBigint("ui_bro_cnt", bro_cnt) ; 
result.setBigint("ui fav cnt", fav cnt); 
result.setBigint("ui cart cnt", cart cnt); 


result.setBigint("ui buy cnt", buy cnt); 


context. write(result); 
) 


context. progress() ; 


public static void main(String[] args) throws Exception ( 
if (args. length != 2) { 


System. err. println( "Usage: WordCount < in_table><out_table>"); 








第 14 章 大 数据 实践 : 基于 数 加 平台 的 推荐 系统 











System. exit(2); 


JobConf job = new JobConf(); 


job. setMapperClass(MyMapper. class); 
job. setReducerClass(MyReducer. class); 


job. setMapOutputKeySchema(SchemaUtils.fromString("user id:string,item id:string")); 
job. setMapOutputValueSchema(SchemaUtils. fromString( "ui. bro:bigint, ui fav: bigint, ui 


cart:bigint,ui buy:bigint")); 


InputUtils. addTable(TableInfo. builder().tableName(args[0]).build(), job); 
OutputUtils. addTable(TableInfo. builder().tableName(args[1]). build(), job); 


JobClient. runJob( job) ; 








编译 完成 后 ,将 其 导出 到 JAR 文件 ,并 上 传 至 数 加 平台 的 资源 管理 中 ,然后 在 任务 开 
发 中 新 建 一 个 OPEN_MR 的 节点 任务 ,对 其 做 如 下 配置 ,如 图 14-7 所 示 。 





MRJar 包 countjar xaj 十 一 
资源 countjar + 
BAR tianchi_fresh_comp_train_user_online 
mapper Feature Count Count$MyMapper 


reducer Feature Count Count$MyReducer 





ibe | count result 





给 HKcy user_idbigintitem id bigint 





输出 Val ui_bro:bigint ui_fav-bigint ui_cartbigint ui_buy-bigint 








图 14-7 OPEN_MR 节点 任务 配置 
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最 后 运行 该 节点 ,得 到 各 类 行为 的 统计 结果 ,如 图 14-8 所 示 。 


6 SELECT w FROM count result 
? 


日 志 R x 
RS user_id item_id ui_bro_cnt ui fav cnt ui cart cnt ui buy cnt 
1 100000027 1732041 2 0 0 0 
2 100000027 295100966 1 0 0 0 
3 100000027 41418089 1 0 0 0 
4 100000027 93973493 1 0 0 0 
5 100000309 103820166 3 0 0 0 
6 100000309 147714136 2 0 0 0 
7 100000309 151039667 1 0 0 0 
8 100000309 151479495 4 0 0 0 
9 100000309 15175559 2 0 0 0 
10 100000309 151841770 3 0 0 0 


图 14-8 MR 程序 的 运行 结果 
14.4.3 特征 提取 与 标签 提取 


如 果 要 对 每 一 个 用 户 -商品 对 做 二 分 类 预测 ,首先 需要 考虑 用 户 特 征 和 商品 特征 ,用 
户 特征 主要 用 来 反映 用 户 的 活跃 程度 以 及 是 否 有 在 未 来 一 天 购物 的 意愿 ,可 用 的 特征 有 
最 近 的 浏览 行为 次 数 、 最 近 的 加 购物 车 行为 次 数 、 最 近 一 次 行为 时 间 等 ; 商品 特征 主要 用 
来 反映 商品 的 热度 ,可 用 的 特征 有 最 近 的 被 购买 次 数 ,被 购买 频率 等 ; 用 户 对 该 商品 的 行 
为 同样 值得 关注 ,如 最 近 是 否 浏览 该 商品 ,最 近 是 否 将 该 商品 加 入 购物 车 ,最 近 是 否 购买 
该 商品 等 。 

由 于 数据 集中 提供 了 商品 类 别 信息 ,因此 类 别 特征 也 可 以 反映 商品 的 热度 ,如 同类 
商品 的 被 购买 次 数 、 同 类 商品 的 被 购买 频率 ,将 商品 特征 与 类 别 特征 进行 组 合 则 可 以 得 
到 商品 在 其 同类 别 商品 中 的 相对 热度 ,如 该 商品 在 同类 商品 中 的 被 购买 比例 、 该 商品 在 
同类 商品 中 的 被 浏览 比例 该 商品 在 同类 商品 中 的 被 购买 次 数 排名 等 。 同 时 ,用 户 对 该 
类 别 商品 的 行为 也 间接 地 反映 了 用 户 是 否 还 有 意愿 购买 该 商品 ,例如 用 户 在 购买 了 同类 

品 之 后 可 能 不 再 有 购买 该 商品 的 意愿 。 

因此 本 文 所 采用 的 特征 类 型 包括 用 户 特征 、 商 品 特征 、 商 品类 别 特征 、 用 户 对 商品 类 
别 的 行为 特征 、 用 户 对 商品 的 行为 特征 以 及 组 合 特征 。 

为 了 体现 时 间 的 影响 ,可 以 将 特征 分 成 不 同 的 时 间 粒 度 进 行 统计 ,例如 按 小 时 划分 
为 最 近 1 小 时 、 最 近 两 小 时 、 最 近 3 小 时 、 最 近 6 小 时 等 , 按 天 划分 为 最 近 1 天、 最 近 3 X. 
最 近 7 天 等 。 即 按照 所 指定 的 不 同 大 小 的 时 间 窗 口 得 到 多 组 统计 量 ,再 将 其 进行 组 合 ， 
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从 而 得 到 更 加 多 样 化 的 特征 。 


由 于 数据 集中 给 定 的 用 户 行为 数据 的 日 期 是 从 2014 年 11 月 18 日 到 2014 年 12 月 
18 日 ,目标 是 预测 2014 年 12 月 19 日 的 用 户 购买 行为 。 那 么 一 个 很 自然 的 构造 训练 集 
的 思路 就 是 以 12 月 18 H 0 点 作为 分 界面 ,12 月 18 日 之 前 的 28 天 用 作 特 征 提取 ,12 月 
18 日 当天 的 用 户 购买 行为 用 作 标 签 提取 ,从 而 得 到 线 上 训练 集 。 然 后 将 分 界面 向 后 移动 
一 天 , 即 采用 12 月 19 日 之 前 的 28 天 用 作 特 征 提取 ,构造 出 线 上 预测 集 。 通 过 训练 集训 
练 出 分 类 模型 ,再 用 模型 对 预测 集中 的 每 个 样本 进行 预测 得 到 最 终 的 预测 结果 。 

为 了 方便 在 线 下 进行 参数 调 优 和 模型 验证 ,构建 验证 集 进行 线 下 验证 也 是 十 分 必要 
的 。 为 此 ,本 文 构建 了 线 下 训练 集 和 线 下 测试 集 来 进行 线 下 验证 ,它们 分 别 使 用 12 月 17 
日 0 点 和 12 月 18 日 0 点 作为 分 界面 ,前 28 天 用 作 特 征 提 取 , 后 1 天 用 作 标 签 提取 。 训 


练 集 和 测试 集 的 构造 方式 如 下 ,相应 图 示 如 图 14-9 所 示 。 





29; 


30; 


30; 


31; 





CREATE TABLE feats test off AS SELECT feats v6 o20. 


CREATE TABLE feats train on AS SELECT feats v6 o20. 


DROP TABLE IF EXISTS feats train off; 
CREATE TABLE feats train off AS SELECT feats v6 o20. * from feats v6 020 where labelday = 


/* 线 下 训练 集 < / 


DROP TABLE IF EXISTS feats_test_off; 


/x 线 下 测试 集 * / 


DROP TABLE IF EXISTS feats_train_on; 


/* 线 上 训练 集 * / 


DROP TABLE IF EXISTS feats_test_on; 
CREATE TABLE feats_test_on AS SELECT feats v6 o20. 


/x 线 上 测试 集 * / 


特征 提取 标签 提取 
人 


线 下 训练 集 ct 


qua 


E 下 验证 
ii 12.18 


js 上 预测 


线 上 测试 集 1 12.19 















前 28 天 








图 14-9 ”训练 集 和 测试 集 构造 图 示 


* from feats_v6_o2o where labelday = 


* from feats_v6_o2o where labelday = 


* from feats_v6_o2o where labelday = 
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通过 编写 MapReduce 程序 可 以 提取 特征 和 标签 ,并 利用 Join 语句 根据 user_id item 
id\item_category 对 不 同类 型 的 特征 进行 连接 , 即 可 构造 出 训练 集 。 构 建 训练 集 的 整体 
流程 如 图 14-10 所 示 。 






































f 
训练 集 验证 集 测试 集 


图 14-10 构建 训练 集 的 流程 


14.4.4 ”训练 集 采样 


在 数据 探索 阶段 可 以 发 现 购买 行为 十 分 稀 玻 ,导致 训练 集 存在 正 负 样 例 不 平衡 的 问 
题 ,过 多 的 样本 还 会 导致 训练 的 效率 十 分 低下 。 对 此 ,一 种 简单 的 解决 方式 就 是 对 负 样 本 
(未 来 没有 购买 行为 的 样本 ) 使 用 随机 下 采样 ,从 而 调整 类 别 不 平衡 度 ,并 提高 训练 效率 。 

利用 算法 平台 中 的 随机 采样 组 件 可 以 方便 地 对 训练 集 进行 随机 采样 ,如 图 14-11 
所 示 。 


比例 采样 与 原样 本 的 比例 , 范围 (0 , 


Qe m. © 0.0086229796501314 


© feats v6 tra... (7) 


图 14-11 训练 集 随 机 采样 
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14.4.5 缺失 值 填 充 


在 构造 训练 集 的 过 程 中 ,可 能 会 遇 到 特征 值 为 空 或 者 NAN 的 情况 ,从 而 影响 模型 训 
练 ,例如 对 于 算法 平台 的 Xgboost 模型 ,车 特征 值 为 NAN 则 在 训练 过 程 中 会 出 现 错误 。 
使 用 算法 平台 的 缺失 值 填充 组 件 可 以 对 缺失 的 特征 值 进行 填充 ,如 图 14-12 所 示 , 将 缺失 
值 填充 为 0, 然 后 就 可 以 正常 进行 模型 训练 。 


BER 758 个 字段 
^ 分 Bua 
Qm Dd Qe e 
, Null Es string) 
| es» 
+ > 自 定 义 (数值 型 和 string) $ 
Ouai © Ori © : 

Ez 

50000 
Orcas eta) Qe te. 9) 


图 14-312 缺失 值 填充 


14.5 ”模型 训练 与 预测 


在 训练 集 构造 完成 之 后 就 可 以 使 用 算法 平台 进行 模型 训练 并 产生 预测 结果 。 下 面 
是 一 个 训练 GBDT 模型 并 产生 预测 结果 的 例子 。 

首先 从 源 /目标 控件 列表 中 拖 出 两 个 “ 读 ODPS 表 " 控 件 和 一 个 “ 写 ODPS 表 ” 控 件 ， 
分 别 用 于 读 取 训 练 集 、 测 试 集 以 及 存放 预测 结果 ,控件 位 置 如 图 14-13 所 示 。 


vx um B 
日 #opps= 


日 Soprs= 


E1433 读 / 写 ODPS 控件 
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然后 从 机 器 学 习 下 二 分 类 的 列表 中 找到 *GBDT 二 分 类 ”控件 ,如 图 14-14 所 示 。 
再 从 机 器 学 习 的 列表 中 找到 “预测 ”控件 ,如 图 14-15 所 示 。 


~ @ x3 
> m 二 分 类 
- u i239 > m 多 分 类 
v @ 二 分 类 > m ke 
[OÓ 线性 支持 向 量 机 > m ER 
D Seas > mme 
[OÓ GBDT— 33 D wm 

图 14-14. GBDT 控件 图 14-15 ”预测 控件 


将 控件 排 好 位 置 ,并 进行 连 线 , 如 图 14-16 所 示 。 


Qs s train .四 


H 
© GBDT 二 分 类 -1 20 teats_v6_test_of... ©) 
X ) 








Qon onec resu ) 


图 14-16 控件 连 线 


左边 输入 的 ODPS 表 是 训练 集 ,将 其 与 GBDT 控件 相连 ,在 GBDT 控件 中 配置 好 相 
应 的 特征 列 \ 标 签 列 以 及 相应 的 参数 ,如 图 14-17 和 图 14-18 所 示 , 单 击 “ 运 行 ” 按 钮 即 可 
开始 进行 模型 训练 。 

右边 输入 的 ODPS 表 是 测试 集 ,将 GBDT 控件 和 测试 集 一 起 与 预测 控件 相连 ,在 模 
型 训练 完成 之 后 即 可 开始 进行 模型 预测 ,并 将 预测 结果 写 人 最 终 的 输出 表 。 

在 这 里 ,预测 控件 生成 的 预测 结果 表 为 train_off_gbdt_result, 通 过 它 可 以 产生 推荐 
列表 ,例如 通过 以 下 SQL 语句 可 以 得 到 预测 结果 为 1 并 且 预 测 分 数 最 高 的 前 1000 个 推 
荐 结果 ,生成 的 列表 如 图 14-19 所 示 。 





SELECTuser_id, item_id, prediction_score FROM train_off_gbdt_result 
WHERE prediction_result = 1 ORDER BY prediction_score DESC LIMIT 1000; 








第 14 章 大 数据 实践 : 基于 数 加 平台 的 推荐 系统 








227 





字 良 设置 — 1 5588 


BBO 支持 double，bigint 最 多 800 列 
Bae 752 个 字段 | 








BARRED! 支持 bigint 只 能 是 一 分 类 


label | 





选择 分 组 列 (可 选 ) 支持 double、bigint G) 











选择 字段 SE 
输入 关键 字 搜 索 列 ， 包 合 关 键 字 即 可 Q 
LE e D 
EJ DouBLE v | B FR 类 型 
四 ui bro decay cnt fi bro decay cnt 
E ui fav. decay cnt fiii. fav decay cnt 
E ui cart decay cnt Éii. cart decay cnt 
El ui buy. decay cnt fbi buy decay cnt 
EJ u bro decay cnt fà bro decay cnt 
Blu fav decay cnt Bh fav decay cnt 
E u cart decay cnt fà cart decay cnt 
EJ u buy decay cnt fà buy decay cnt 
Blu ratio buy cart 10d f ratio buy cart 10d 
Blu ratio buy fav 10d fà ratio buy fav 10d 
Eu. ratio buy bro 10d fà ratio buy bro 10d 
E u satio bro at 104 fi ratio bro all 10d 








图 14-17 选择 特征 和 标签 


228 大 数据 基础 及 应 用 


© feats v6 tra... (Z) 
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图 14-18 参数 配置 


Qat Omi 88 we 


1 select user id, item id, prediction score from train off gbdt result where 





( me \ sax) 








序号 user id 

1 10079053 
£ 74068118 
3 21164348 
4 64176868. 
5 103740694 
6 12731921 
7 10411965 
8 75261453 
9 127089560 
10 53079874 
"1 80995307 
12 12382739 


item id 
1741884 
212519696 
57375774 
315119130 
1741884 
289071406 
212519696 
352369523 
305613858 


390732341 
143693437 


prediction score. 
0.998842293439 
0.998432872494 
0.998298378786 
0997742854982. 
0.996776923945 
0.996579080036 
0.996554629989 
0.996552409881 
0.996471929285. 
0.996443801342" 
0.996256787299. 
0996192522703 


图 14-19 ”预测 运行 结果 
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14.6 模型 预测 的 准确 性 评测 


在 模型 预测 完成 之 后 可 以 利用 算法 平台 的 评估 组 件 对 预测 的 准确 性 进行 评测 ,评估 
组 件 与 预测 组 件 的 输出 端 相 连 , 右 击 该 组 件 ,选择 "执行 至 此 处 ”, 即 可 完成 评估 ,如 图 14-20 
所 示 。 





OT @ Qu ®© 





@ ra © 


== O) 
图 14-20 模型 准确 性 预测 评估 
评估 完成 后 右 击 该 组 件 ,选择 “查看 评估 报告 ", 即 可 查看 模型 预测 的 效果 ,如 图 14-21 
所 示 。 其 中 包括 AUC.F1 Score, KS 等 评价 指标 ,这 些 指 标 均 用 于 评价 二 分 类 的 分 类 效 


果 , 其 取 值 范围 均 为 [0,1], 值 越 大 说 明 分 类 效果 越 好 ,在 评估 报告 中 还 可 以 查看 其 对 应 
的 ROC 曲线 .PR 曲线 、KS 曲线 等 图 表 , 如 图 14-22 Bros 











评估 报告 x 
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图 14-21 准确 性 评估 数据 


ë 大 数据 基础 及 应 用 
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图 14-22 准确 性 评估 图 表 
14.7 ”特征 重要 性 的 评估 


为 了 提高 预测 的 准确 性 ,有 时 还 需要 观察 特征 的 重要 性 ,以 便 设计 出 更 有 效 的 特征 ， 
并 去 除 无 效 的 特征 。 

利用 特征 重要 性 评估 组 件 可 以 方便 地 评估 特征 的 重要 性 。 图 14-23 展示 了 一 个 运用 
随机 森林 特征 重要 性 评估 组 件 来 评估 特征 重要 性 的 例子 。 评 估 完 成 后 ,以 直方 图 的 形式 
对 特征 重要 性 进行 了 展示 ,如 图 14-24 所 示 。 
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节点 名 称 - 随机 森林 特征 重要 性 评估 -1 
其 去 名 称 : 随机 森林 特征 重要 性 评估 
结 市 时 间 : 2016-08-06 14:30:20 
运行 时 长 : 00:51:52 

运行 状态: 成 功 


图 14-23 随机 森林 特征 重要 性 评估 
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图 14-24 特征 重要 性 评估 结果 


本 章 展示 了 一 个 用 数 加 平台 实现 的 推荐 系统 ,完整 代码 可 以 从 GitHub 上 下 载 
(https://github. com/alibook/alibook-bigdata. git) ,该 系统 主要 通过 MapReduce 程序 
提取 用 户 与 商品 的 特征 ,构造 训练 集 , 利 用 算法 平台 的 GBDT 组 件 训 练 了 一 个 二 分 类 模 
型 来 预测 用 户 未 来 一 天 对 于 各 商品 发 生 购 买 行为 的 概率 ,并 利用 评估 组 件 分 别 对 预测 的 
准确 率 和 特征 的 重要 性 进行 了 评测 ,从 中 可 以 看 出 数 加 平台 处 理 大 数据 的 强大 能 力 , 同 
时 该 平台 的 界面 也 十 分 人 性 化 ,提供 了 非常 丰富 的 组 件 ,采用 拖 电 控件 的 方式 即 可 完成 
模型 的 训练 ,非常 易于 上 手 。 
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